为什么奖励和惩罚项是训练损失差的一半?
yangyahu-1994 opened this issue · comments
Yang Yahu commented
Yang Yahu commented
Zhihao Lin commented
在训练router时,我们期望一半的数据集可以被分为easy,而另一半被分为hard(这样是一个最理想的判别的情况)
以此为基础,我们会首先获得training set中loss差的中位数,即
至于1/2这个系数的选择,是为了平衡loss的尺度,简单设置为了1/2。从fig. 5和 eq. 13我们可以发现,系数的选择重点在于“奖励 - 惩罚 =
feifeifei_ commented
Yang Yahu commented
非常感谢作者耐心解答!