[Question]: Why not call optimizer.zero_grad() in train_step_pytorch and train_step_pytorchDDP function?

Question

THU-Kingmin opened this issue 3 months ago · comments

为什么代码flagai/trainer.py中的train_step_pytorch和train_step_pytorchDDP函数在fp32 的训练下没有调用optimizer.zero_grad()？

flagai/trainer.py 的 704行和778行被注释掉了，如下：

704行：# optimizer.zero_grad()

请问为什么每一步optimizer.step之后不调用optimizer.zero_grad?这是什么trick吗？还是bug？

非常感谢和期待您的回复！！！

No response