关于多卡训练

Question

关于多卡训练

guijuzhejiang opened this issue 4 years ago · comments

现在的代码只支持单卡训练，为了改成多GPU并行训练，加了DistributedDataParallel。报错
RuntimeError: grad can be implicitly created only for scalar outputs
好像是loss.backward()的错误
请问有尝试修改代码做多GPU训练吗？

guijuzhejiang · Answer 1 · Mon Oct 12 2020 11:28:14 GMT+0800 (China Standard Time)

我把原来的total_loss += loss.item()改成total_loss += loss.mean()，是可以跑起来了。

zhaohu xing · Answer 2 · Mon Oct 12 2020 11:44:29 GMT+0800 (China Standard Time)

好嘞，多卡我还没了解，多谢您的尝试！

Wang Huijuan · Answer 3 · Wed Dec 08 2021 14:40:43 GMT+0800 (China Standard Time)

我把原来的total_loss += loss.item()改成total_loss += loss.mean()，是可以跑起来了。

您好！因为显存限制，我也想尝试使用多卡来运行代码，但我自己的尝试失败了，所以想请问您这边的代码实现可以分享一下吗？非常感谢！