多机多卡分布式训练报错,单机多卡没有问题
zheng5yu9 opened this issue · comments
一叶飘零 commented
有个分布式的问题:
这套分布式code 单机多卡执行没有问题,但是 多机多卡 在 保存checkpoint时候老是报错,一直定位不了问题, 这个你们有经验么,问题出在哪
2024-04-15 09:40 File "/opt/conda/lib/python3.10/shutil.py", line 679, in _rmtree_safe_fd
2024-04-15 09:40 os.unlink(entry.name, dir_fd=topfd)
2024-04-15 09:40 FileNotFoundError: [Errno 2] No such file or directory: 'rng_state_28.pth'
2024-04-15 09:40