chatglm多gpu用deepspeed和
Geek Repo:Geek Repo
Github PK Tool:Github PK Tool
awelldone opened this issue a year ago · comments
博主你好 我用4张a100 40g进行多卡并行跑multi_gpu,py的时候 终端报NCCL错误,并且第一张卡显存爆了
博主你好 我用4张a100 40g进行多卡并行跑multi_gpu,py的时候 终端报NCCL错误,并且第一张卡显存爆了 把deepspeed的下面参数改小点,如果你的数据量可以,可以把lora的秩改大些 "gradient_accumulation_steps":2, "train_batch_size": 4,