liangwq / Chatglm_lora_multi-gpu

chatglm多gpu用deepspeed和

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

一张卡能运行,两张卡报错

Flat-Chen opened this issue · comments

3090*2
--nproc_per_node=2 改为1可以正常运行

image

image

没有找到更加详细的报错日志,小白冒昧问一下,低级问题麻烦大佬不要嘲笑

multi_gpu_fintune_belle.py代码运行到
model, optimizer, train_dataloader = accelerator.prepare(model, optimizer, train_dataloader)
开始报错

看报错事accelerate给的,你试试把accelerate升级,peft按require txt里面给的安装下

感谢大佬,之前没有描述清楚是用docker环境运行
通过寻找accelerate的报错找到了一个issues:
huggingface/accelerate#1254
docker run -it --network host 解决
再次感谢大佬!

看报错事accelerate给的,你试试把accelerate升级,peft按require txt里面给的安装下

commented

感谢大佬,之前没有描述清楚是用docker环境运行 通过寻找accelerate的报错找到了一个issues: huggingface/accelerate#1254 docker run -it --network host 解决 再次感谢大佬!

看报错事accelerate给的,你试试把accelerate升级,peft按require txt里面给的安装下

我用docker run -it --network host好像也不行,你用了之后就好了吗?

--network host --ipc host

感谢大佬,之前没有描述清楚是用docker环境运行 通过寻找accelerate的报错找到了一个issues: huggingface/accelerate#1254 docker run -it --network host 解决 再次感谢大佬!

看报错事accelerate给的,你试试把accelerate升级,peft按require txt里面给的安装下

我用docker run -it --network host好像也不行,你用了之后就好了吗?