finetuing MP_SIZE问题

Question

finetuing MP_SIZE问题

lulia0228 opened this issue a year ago · comments

因为先前从单机8卡验证了130B推理没问题，所以在跑10B finetune时候习惯性的把模型给mp成4份了，在单机4卡跑
bash scripts/ds_finetune_superglue.sh
config_tasks/model_blocklm_10B.sh
config_tasks/task_copa.sh
时候修改MP_SIZE=4，发现在训练200步后 eval阶段会报"dev-0"error；看了下出错位置发现 /tasks/eval_utils.py
191行mpu.get_model_parallel_rank() == 0导致在1,2,3时候results结果为空，另外看ds_finetune_seq2seq.sh和ds_pretrain_nvidia.sh MP_SIZE=1。

想请教下作者，只能设置成MP_SIZE=1吗，还是说因为单卡可以放下10B，没必要MP成几份？
如果想要设置不同的MP_SIZE，应该如何修改？我目前直接取消了model_parallel_rank==0的限制，MP_SIZE=4能正常运行，看着结果acc也比较正常，不知道这样会不会有进程数据同步问题，导致计算的acc错误？

Zhengxiao Du · Answer 1 · Sat Mar 04 2023 20:56:23 GMT+0800 (China Standard Time)

可以直接去掉191行。