为什么奖励和惩罚项是训练损失差的一半？

Question

为什么奖励和惩罚项是训练损失差的一半？

yangyahu-1994 opened this issue a year ago · comments

Yang Yahu commented a year ago

Yang Yahu · Answer 1 · Fri Jun 02 2023 19:14:18 GMT+0800 (China Standard Time)

作者您好：

上面的式子中，奖励和惩罚为什么是1/2$\Delta$？

Zhihao Lin · Answer 2 · Fri Jun 02 2023 19:26:40 GMT+0800 (China Standard Time)

在训练router时，我们期望一半的数据集可以被分为easy，而另一半被分为hard（这样是一个最理想的判别的情况）
以此为基础，我们会首先获得training set中loss差的中位数，即 $\Delta$。此中位数所对应的那个图片样本就可以认为上述理想状况的“分界线”，比它难的则认为hard，比它易的则认为easy。据此，我们就可以通过 $\Delta$ 去奖励、惩罚两个detector来实现上述理想状况的训练的（即论文fig. 5）。

至于1/2这个系数的选择，是为了平衡loss的尺度，简单设置为了1/2。从fig. 5和 eq. 13我们可以发现，系数的选择重点在于“奖励 - 惩罚 = $\Delta$” 。因此，为便于使用，我们就直接选择了1/2。

feifeifei_ · Answer 3 · Fri Jun 02 2023 20:00:53 GMT+0800 (China Standard Time)

feifeifei_ commented a year ago

Yang Yahu · Answer 4 · Fri Jun 02 2023 20:37:17 GMT+0800 (China Standard Time)

非常感谢作者耐心解答！