layumi / Person_reID_baseline_pytorch

:bouncing_ball_person: Pytorch ReID: A tiny, friendly, strong pytorch implement of person re-id / vehicle re-id baseline. Tutorial 👉https://github.com/layumi/Person_reID_baseline_pytorch/tree/master/tutorial

Home Page:https://www.zdzheng.xyz

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

多卡训练自己数据集时卡在第一个batch就不动了

zxs23130 opened this issue · comments

你好,

  1. 你用的是什么卡? 4090的话把P2P封了,有可能出现这个问题。
  2. 单卡跑的话是OK的么?

你好 @zxs23130
感谢! 我找到原因了 应该也是 torch.compile() 的 兼容性。

暂时你可以把 torch.compile() 注释了。

应该和这个case 一样。 目前 DP不支持 compile pytorch/pytorch#94636

我之后传一个DDP版本上来。用下面这行命令就能跑上。

bash DDP.sh 

另外 现在pytorch 对 DP支持比较差 我试了一下 会出现类似NaN的情况
https://discuss.pytorch.org/t/nan-loss-with-dataparallel/26501