gpengzhi / Bi-SimCut

Code for NAACL 2022 main conference paper "Bi-SimCut: A Simple Strategy for Boosting Neural Machine Translation"

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

请教有关于实验复现的问题。

Star-cre opened this issue · comments

commented

我想要复现低资源数据集的实验结果,该数据集需要训练八张V100显卡的机器。请问,基于这样的硬件配置,训练这个数据集需要多长时间呢?如果您能够提供更多的训练细节和超参数设置,我将不胜感激。谢谢。

如果你指的低资源数据集是 IWSLT14 英德的话,我其实只用了1张V100显卡。你直接用README里的command应该就可以复现结果。

commented

非常抱歉再次打扰您,感谢您能够抽出时间回答我的问题。我想请教一些其他关于您的GitHub项目的问题,希望能够得到您的指导:

1、首先,我想确认一下,您在训练过程中使用的是一张V100显卡,训练了多长时间?
2、其次,我目前手头的资源比较有限,只能使用一张3080显卡进行训练。但是在训练过程中,我遇到了一个问题,出现了梯度溢出的错误,错误信息如下:
Fairseq: FloatingPointError: Minimum loss scale reached (0.0001)
请问这个错误是否与显卡有关?我是否更换为v100显卡可以解决这个问题?
3、最后,我计划采用减小学习率、增加梯度裁剪为1以及增大max-token数的方式来解决上述错误。请问您认为这种方法可行吗?如果您有任何其他建议或者优化方法,我将非常感激。再次致以真诚的感谢。

1:一张V100,全程大概一天就可以。
2、3:你可以先尝试不用混合精度训练(去掉 --fp16)看是否能正常训练。

commented

非常感谢您百忙之中抽空回答!真诚的感谢!鞠躬。