请教有关于实验复现的问题。

Question

请教有关于实验复现的问题。

Star-cre opened this issue a year ago · comments

Moon commented a year ago

我想要复现低资源数据集的实验结果，该数据集需要训练八张V100显卡的机器。请问，基于这样的硬件配置，训练这个数据集需要多长时间呢？如果您能够提供更多的训练细节和超参数设置，我将不胜感激。谢谢。

Pengzhi Gao · Answer 1 · Sat Apr 08 2023 18:23:42 GMT+0800 (China Standard Time)

如果你指的低资源数据集是 IWSLT14 英德的话，我其实只用了1张V100显卡。你直接用README里的command应该就可以复现结果。

Moon · Answer 2 · Sun Apr 09 2023 11:24:32 GMT+0800 (China Standard Time)

非常抱歉再次打扰您，感谢您能够抽出时间回答我的问题。我想请教一些其他关于您的GitHub项目的问题，希望能够得到您的指导：

1、首先，我想确认一下，您在训练过程中使用的是一张V100显卡，训练了多长时间？
2、其次，我目前手头的资源比较有限，只能使用一张3080显卡进行训练。但是在训练过程中，我遇到了一个问题，出现了梯度溢出的错误，错误信息如下：
Fairseq: FloatingPointError: Minimum loss scale reached (0.0001)
请问这个错误是否与显卡有关？我是否更换为v100显卡可以解决这个问题？
3、最后，我计划采用减小学习率、增加梯度裁剪为1以及增大max-token数的方式来解决上述错误。请问您认为这种方法可行吗？如果您有任何其他建议或者优化方法，我将非常感激。再次致以真诚的感谢。

Pengzhi Gao · Answer 3 · Thu Apr 13 2023 13:56:26 GMT+0800 (China Standard Time)

1：一张V100，全程大概一天就可以。
2、3：你可以先尝试不用混合精度训练（去掉 --fp16）看是否能正常训练。

Moon · Answer 4 · Wed Apr 19 2023 11:38:25 GMT+0800 (China Standard Time)

非常感谢您百忙之中抽空回答！真诚的感谢！鞠躬。