关于训练过程中loss突然变成nan，acc变成0的问题

Question

isunLt opened this issue 4 years ago · comments

您好，感谢您分享的代码，我在训练模型的过程中出现了loss突然变成nan，acc变成0的问题，我分别从头开始进行了两次训练，但是还是产生了一样的问题。
我的训练环境是：

请问您知道可能的原因是什么吗？您用的ImageNet-LT是由ILSVRC2015提取的吗？

Tianfang-Sun · Answer 1 · Sun Oct 25 2020 16:26:02 GMT+0800 (China Standard Time)

不好意思打扰了，我把python换成3.7，pytorch换成1.6之后就没问题了。

Tianfang-Sun · Answer 2 · Mon Oct 26 2020 09:41:46 GMT+0800 (China Standard Time)

抱歉我又来了，在换成python3.7、pytorch1.6以后，到训练的最后还是出现了老问题。

Kaihua Tang · Answer 3 · Mon Oct 26 2020 09:53:22 GMT+0800 (China Standard Time)

不好意思没有遇到过类似问题，我也不知道为什么

Kaihua Tang · Answer 4 · Mon Oct 26 2020 09:54:05 GMT+0800 (China Standard Time)

可能是因为改了batch size，learning rate也需要对应的修改？

Kaihua Tang · Answer 5 · Mon Oct 26 2020 09:55:50 GMT+0800 (China Standard Time)

还有种可能是要在所有normalize的分母处加一个 1e-9 或者 1e-12。因为不知道什么原因分母的norm值训练的太小了，但是我自己没遇到类似问题。

Tianfang-Sun · Answer 6 · Mon Oct 26 2020 10:04:40 GMT+0800 (China Standard Time)

还有种可能是要在所有normalize的分母处加一个 1e-9 或者 1e-12。因为不知道什么原因分母的norm值训练的太小了，但是我自己没遇到类似问题。

谢谢您，我去试一下。

deepkun · Answer 7 · Fri Jul 23 2021 12:01:34 GMT+0800 (China Standard Time)

请问您问题解决了吗？我改了norm还是会出现nan，我的loss下降很快，在一个epoch内就变nan了

Tianfang-Sun · Answer 8 · Fri Jul 23 2021 14:27:38 GMT+0800 (China Standard Time)

请问您问题解决了吗？我改了norm还是会出现nan，我的loss下降很快，在一个epoch内就变nan了

太久了，我忘记了，不好意思

yufu · Answer 9 · Wed Oct 06 2021 16:46:01 GMT+0800 (China Standard Time)

还有种可能是要在所有normalize的分母处加一个 1e-9 或者 1e-12。因为不知道什么原因分母的norm值训练的太小了，但是我自己没遇到类似问题。

I had the same problem and I fixed it by following Tang's advice. That's really helpful, thx.