一张卡能运行，两张卡报错

Question

一张卡能运行，两张卡报错

Flat-Chen opened this issue a year ago · comments

3090*2
--nproc_per_node=2 改为1可以正常运行

没有找到更加详细的报错日志，小白冒昧问一下，低级问题麻烦大佬不要嘲笑

Flat-Chen · Answer 1 · Wed Mar 29 2023 18:21:29 GMT+0800 (China Standard Time)

multi_gpu_fintune_belle.py代码运行到
model, optimizer, train_dataloader = accelerator.prepare(model, optimizer, train_dataloader)
开始报错

liangwq · Answer 2 · Wed Mar 29 2023 18:22:20 GMT+0800 (China Standard Time)

看报错事accelerate给的，你试试把accelerate升级，peft按require txt里面给的安装下

Flat-Chen · Answer 3 · Thu Mar 30 2023 12:34:05 GMT+0800 (China Standard Time)

感谢大佬，之前没有描述清楚是用docker环境运行
通过寻找accelerate的报错找到了一个issues：
huggingface/accelerate#1254
docker run -it --network host 解决
再次感谢大佬！

看报错事accelerate给的，你试试把accelerate升级，peft按require txt里面给的安装下

李理 · Answer 4 · Mon Apr 03 2023 17:05:53 GMT+0800 (China Standard Time)

感谢大佬，之前没有描述清楚是用docker环境运行通过寻找accelerate的报错找到了一个issues： huggingface/accelerate#1254 docker run -it --network host 解决再次感谢大佬！

看报错事accelerate给的，你试试把accelerate升级，peft按require txt里面给的安装下

我用docker run -it --network host好像也不行，你用了之后就好了吗？

Flat-Chen · Answer 5 · Mon Apr 03 2023 17:09:09 GMT+0800 (China Standard Time)

--network host --ipc host

感谢大佬，之前没有描述清楚是用docker环境运行通过寻找accelerate的报错找到了一个issues： huggingface/accelerate#1254 docker run -it --network host 解决再次感谢大佬！

看报错事accelerate给的，你试试把accelerate升级，peft按require txt里面给的安装下

我用docker run -it --network host好像也不行，你用了之后就好了吗？