yangjianxin1 / Firefly

Firefly: 大模型训练工具,支持训练Yi1.5、Phi-3、Llama3、Gemma、MiniCPM、Yi、Deepseek、Orion、Xverse、Mixtral-8x7B、Zephyr、Mistral、Baichuan2、Llma2、Llama、Qwen、Baichuan、ChatGLM2、InternLM、Ziya2、Vicuna、Bloom等大模型

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

多机多卡分布式训练报错,单机多卡没有问题

zheng5yu9 opened this issue · comments

有个分布式的问题:
这套分布式code 单机多卡执行没有问题,但是 多机多卡 在 保存checkpoint时候老是报错,一直定位不了问题, 这个你们有经验么,问题出在哪
2024-04-15 09:40 File "/opt/conda/lib/python3.10/shutil.py", line 679, in _rmtree_safe_fd
2024-04-15 09:40 os.unlink(entry.name, dir_fd=topfd)
2024-04-15 09:40 FileNotFoundError: [Errno 2] No such file or directory: 'rng_state_28.pth'
2024-04-15 09:40
image