liangwq / Chatglm_lora_multi-gpu

chatglm多gpu用deepspeed和

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

多卡并行问题

awelldone opened this issue · comments

博主你好 我用4张a100 40g进行多卡并行跑multi_gpu,py的时候 终端报NCCL错误,并且第一张卡显存爆了
1683982496509
1683982532168
1683982571409

博主你好 我用4张a100 40g进行多卡并行跑multi_gpu,py的时候 终端报NCCL错误,并且第一张卡显存爆了 1683982496509 1683982532168 1683982571409
把deepspeed的下面参数改小点,如果你的数据量可以,可以把lora的秩改大些
"gradient_accumulation_steps":2,
"train_batch_size": 4,