THUDM / GLM

GLM (General Language Model)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

finetuing MP_SIZE问题

lulia0228 opened this issue · comments

因为先前从单机8卡验证了130B推理没问题,所以在跑10B finetune时候习惯性的把模型给mp成4份了,在单机4卡跑
bash scripts/ds_finetune_superglue.sh
config_tasks/model_blocklm_10B.sh
config_tasks/task_copa.sh
时候修改MP_SIZE=4,发现在训练200步后 eval阶段会报"dev-0"error; 看了下出错位置发现 /tasks/eval_utils.py
191行mpu.get_model_parallel_rank() == 0导致在1,2,3时候results结果为空,另外看ds_finetune_seq2seq.sh和ds_pretrain_nvidia.sh MP_SIZE=1。

想请教下作者,只能设置成MP_SIZE=1吗,还是说因为单卡可以放下10B,没必要MP成几份?
如果想要设置不同的MP_SIZE,应该如何修改?我目前直接取消了model_parallel_rank==0的限制,MP_SIZE=4能正常运行,看着结果acc也比较正常,不知道这样会不会有进程数据同步问题,导致计算的acc错误?

image

可以直接去掉191行。