你好，请教nan的问题

Question

你好，请教nan的问题

keaideii opened this issue 5 years ago · comments

你好，感谢分享代码！想请教下，我们有几个任务进行多任务学习，在用这套框架一起训练时候，会报nan错误，但是单独训练时候都没有问题。不知道你可否知道可能哪里出现了问题？（看代码里面有注释说 # WARNING: Potential nan created here! # TODO: Fix this.）谢谢！

Jay Yip · Answer 1 · Wed Aug 21 2019 21:05:30 GMT+0800 (China Standard Time)

请问单独训练的时候也是用这个框架训练的吗？我在混合训练seq2seq任务和其他任务的时候遇到了nan问题，你的任务类型也是包含seq2seq吗？

winter melon · Answer 2 · Thu Aug 22 2019 10:36:07 GMT+0800 (China Standard Time)

你好，单独训练也是用的这个框架。不包含seq2seq，是多个cls的任务。

Jay Yip · Answer 3 · Thu Aug 22 2019 10:54:19 GMT+0800 (China Standard Time)

我好像没有遇到过这个情况, 一般来说, 比较常见的nan产生原因有: 学习率过大, 通常会表现为损失上升然后变nan; 设置的类别数小于实际类别数, 那么遇到超过设置类别数的类别就会产生nan.

那个warning那里应该是在seq2seq任务中, 如果没有抽样到该seq2seq任务的话, 其损失为nan. 但是cls任务应该是不会的.

winter melon · Answer 4 · Thu Aug 22 2019 14:30:13 GMT+0800 (China Standard Time)

感谢！初步定位到top_utils.py，tf.reduce_mean(batch_loss*loss_multiplier)，传入reduce_mean的tensor为空，导致了nan，暂时先把这里的tensor做个判断，为空时传[0]。因为临时帮同事处理nan，还没仔细去读您的代码，感谢分享这么好的项目，随后再学习下！

Jay Yip · Answer 5 · Thu Aug 22 2019 15:06:21 GMT+0800 (China Standard Time)

好的, 如果你发现了问题根源或者觉得这个一个好的解决方法, 欢迎提个pr!

单纯的检测到nan传0可能会掩盖学习率过大的问题, 但是如果同时检测到batch_loss第一个维度为0的话, 感觉这个解决方案是可以的.

winter melon · Answer 6 · Thu Aug 22 2019 15:19:42 GMT+0800 (China Standard Time)

嗯，我也是想在找下这个问题的根源，找到再与您交流！