hugging face仓库的10b-chinese模型问题。用Trainer API进行数据并行微调会报出OOM错误，有没有优化内存的方法？

Question

taofennanhai opened this issue a year ago · comments

superhg · Answer 1 · Wed Mar 29 2023 18:42:46 GMT+0800 (China Standard Time)

deepspeed + zero3

Yu · Answer 2 · Thu Mar 30 2023 15:17:55 GMT+0800 (China Standard Time)

确实可以，我用deepspeed stage2策略跑起来了。但是我有一个问题，是不是10b-chinese的模型只能只能先用16精度放入GPU，然后训练的时候用bf16混合训练？

joan126 · Answer 3 · Wed Apr 12 2023 10:07:36 GMT+0800 (China Standard Time)

确实可以，我用deepspeed stage2策略跑起来了。但是我有一个问题，是不是10b-chinese的模型只能只能先用16精度放入GPU，然后训练的时候用bf16混合训练？

你也没有Bf16的原始模型啊

hugging face仓库的10b-chinese模型问题。用Trainer API进行数据并行微调会报出OOM错误 ，有没有优化内存的方法？