训练自己的数据集出现Nan

Question

训练自己的数据集出现Nan

zhangshaojie1993 opened this issue 10 months ago · comments

zhangshaojie1993 commented 10 months ago

每次在训练到接近8K iterations的时候都会出现loss为Nan的情况，数据集里有自己业务的数据。

Zhang Yu · Answer 1 · Thu Sep 07 2023 14:33:13 GMT+0800 (China Standard Time)

学习率太高了吗？导致梯度爆炸？

zhangshaojie1993 · Answer 2 · Thu Sep 07 2023 16:05:00 GMT+0800 (China Standard Time)

学习率太高了吗？导致梯度爆炸？
用的作者默认的学习率

Zhang Yu · Answer 3 · Thu Sep 07 2023 16:11:14 GMT+0800 (China Standard Time)

学习率太高了吗？导致梯度爆炸？
用的作者默认的学习率

那我不太懂了。我训练也出问题了，我准备重新训练的，目前联系作者联系不上，可能他太忙了。我训练的时候，loss是稳定上升，最后趋于收敛了，我也搞不懂原因

zhangshaojie1993 · Answer 4 · Fri Sep 08 2023 11:10:10 GMT+0800 (China Standard Time)

@gangweiX 我只使用sceneflow数据集训练了一把，还是出现了nan，使用的是作者训练代码里的默认参数，能帮忙解答一下吗？

Xianqi Wang · Answer 5 · Sat Sep 09 2023 17:18:08 GMT+0800 (China Standard Time)

你好，你的问题可能有三种原因：

在不同设备上，seed即便相同初始化可能也会不同，可以尝试改一下seed；
半精度混合训练虽然提高了训练速度，但只有16bit，当数据过大时，容易发生溢出，出现nan，可以尝试关闭；（在train._stereo.py第206行，把mixed_precision的default参数删除，不要把default设置为False，参数判断的是有无字符串）
初始视差用的smooth_l1_loss监督，其余视差用的l1_loss监督，不同loss可能影响训练的稳定性，可以尝试都换成l1_loss。

另外，我建议可以直接加载sceneflow的预训练模型，然后在自己的数据集上训练，避免重新训练造成的不稳定。

zhangshaojie1993 · Answer 6 · Mon Sep 11 2023 18:19:21 GMT+0800 (China Standard Time)

你好，你的问题可能有三种原因：

1. 在不同设备上，seed即便相同初始化可能也会不同，可以尝试改一下seed；

2. 半精度混合训练虽然提高了训练速度，但只有16bit，当数据过大时，容易发生溢出，出现nan，可以尝试关闭；（在train._stereo.py第206行，把mixed_precision的default参数删除，不要把default设置为False，参数判断的是有无字符串）

3. 初始视差用的smooth_l1_loss监督，其余视差用的l1_loss监督，不同loss可能影响训练的稳定性，可以尝试都换成l1_loss。

另外，我建议可以直接加载sceneflow的预训练模型，然后在自己的数据集上训练，避免重新训练造成的不稳定。

非常感谢！！我后来就是用的sceneflow预训练模型来训练的，并且学习率调成了之前的1/10，训练变稳定了！

1790426751 · Answer 7 · Thu Nov 02 2023 14:39:52 GMT+0800 (China Standard Time)

你好，我在复现论文时发现训练过程中会出现nan，所以我在代码中添加以下代码（图中画圈的）想要查看跑到第几个epoch时会出现nan。然后，我发现在训练一开始就有参数的梯度是nan，请问这是正常的吗？

Gangwei XU · Answer 8 · Fri Nov 03 2023 02:19:27 GMT+0800 (China Standard Time)

这是不正常的，我们训练的时候没有出现NAN 2023-11-02 14:40:03>1790426751 写道：你好，我在复现论文时发现训练过程中会出现nan，所以我在代码中添加以下代码（图中画圈的）想要查看跑到第几个epoch时会出现nan。然后，我发现在训练一开始就有参数的梯度是nan，请问这是正常的吗？ — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: ***@***.***>

1790426751 · Answer 9 · Fri Nov 03 2023 09:53:57 GMT+0800 (China Standard Time)

感谢您之前的回复，我还有一个小问题想要请教：就是关于训练参数--slow_fast_gru的设置，我看这个参数在前身RAFT-Stereo中说可以提高计算速度，但是在您的论文并没有提到这点，在代码中这参数也是默认为false的。请问这个参数我要设置为true还是保持默认就好？

Gangwei XU · Answer 10 · Fri Nov 03 2023 16:34:12 GMT+0800 (China Standard Time)

我觉得看你的需求，如果你想快一点，可以设置一下2023-11-03 09:54:08>1790426751 写道：感谢您之前的回复，我还有一个小问题想要请教：就是关于训练参数--slow_fast_gru的设置，我看这个参数在前身RAFT-Stereo中说可以提高计算速度，但是在您的论文并没有提到这点，在代码中这参数也是默认为false的。请问这个参数我要设置为true还是保持默认就好？ — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: ***@***.***>

Wade_Lucky · Answer 11 · Thu Nov 30 2023 19:50:19 GMT+0800 (China Standard Time)

作者您好，我在sceneflow数据集上训练您的模型时，发现如果将lr设置为0.001，batchsize=2，然后跑到5k步左右的时候，3像素偏差会出现nan，我想咨询一下，如果batchsize设置只能是2的话，如果让网络可以快速下降，lr应该设置为多少呢

Gangwei XU · Answer 12 · Thu Nov 30 2023 20:31:42 GMT+0800 (China Standard Time)

batchsize最好设置大一点，太小容易震荡容易出现nan，如果batchsize太小的话，试试梯度累计，将多个batch的loss求平均后再反向传播。或者把 core中的igev_stereo.py with autocast(enabled=self.args.mixed_precision): 改成enabled=False试试，我能想到的了，如果还不行，可能还是需要调整batchsize。2023-11-30 19:50:29>Wade_Lucky 写道：作者您好，我在sceneflow数据集上训练您的模型时，发现如果将lr设置为0.001，batchsize=2，然后跑到5k步左右的时候，3像素偏差会出现nan，我想咨询一下，如果batchsize设置只能是2的话，如果让网络可以快速下降，lr应该设置为多少呢 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: ***@***.***>