liucongg / ChatGLM-Finetuning

基于ChatGLM-6B、ChatGLM2-6B、ChatGLM3-6B模型,进行下游具体任务微调,涉及Freeze、Lora、P-tuning、全参微调等

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

梯度叠加

ShawnChang-ei opened this issue · comments

关于梯度叠加的代码,有个疑问
model.step()不应该在if (step + 1) % args.gradient_accumulation_steps == 0:之后吗?这样梯度叠加才会起效果吧

我也有这个疑问, 你实验过有区别吗?

deepseed里面做好的