梯度叠加
ShawnChang-ei opened this issue · comments
关于梯度叠加的代码,有个疑问
model.step()不应该在if (step + 1) % args.gradient_accumulation_steps == 0:之后吗?这样梯度叠加才会起效果吧
我也有这个疑问, 你实验过有区别吗?
deepseed里面做好的
基于ChatGLM-6B、ChatGLM2-6B、ChatGLM3-6B模型,进行下游具体任务微调,涉及Freeze、Lora、P-tuning、全参微调等
ShawnChang-ei opened this issue · comments
关于梯度叠加的代码,有个疑问
model.step()不应该在if (step + 1) % args.gradient_accumulation_steps == 0:之后吗?这样梯度叠加才会起效果吧
我也有这个疑问, 你实验过有区别吗?
deepseed里面做好的