THUDM / GLM

GLM (General Language Model)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

hugging face仓库的10b-chinese模型问题。用Trainer API进行数据并行微调会报出OOM错误 ,有没有优化内存的方法?

taofennanhai opened this issue · comments

commented

deepspeed + zero3

commented

确实可以,我用deepspeed stage2策略跑起来了。但是我有一个问题,是不是10b-chinese的模型只能只能先用16精度放入GPU,然后训练的时候用bf16混合训练?

确实可以,我用deepspeed stage2策略跑起来了。但是我有一个问题,是不是10b-chinese的模型只能只能先用16精度放入GPU,然后训练的时候用bf16混合训练?

你也没有Bf16的原始模型啊