VDIGPKU / DynamicDet

[CVPR 2023] DynamicDet: A Unified Dynamic Architecture for Object Detection

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

为什么奖励和惩罚项是训练损失差的一半?

yangyahu-1994 opened this issue · comments

作者您好:

image
上面的式子中,奖励和惩罚为什么是1/2$\Delta$?

在训练router时,我们期望一半的数据集可以被分为easy,而另一半被分为hard(这样是一个最理想的判别的情况)
以此为基础,我们会首先获得training set中loss差的中位数,即 $\Delta$。此中位数所对应的那个图片样本就可以认为上述理想状况的“分界线”,比它难的则认为hard,比它易的则认为easy。据此,我们就可以通过 $\Delta$ 去奖励、惩罚两个detector来实现上述理想状况的训练的(即论文fig. 5)。

至于1/2这个系数的选择,是为了平衡loss的尺度,简单设置为了1/2。从fig. 5和 eq. 13我们可以发现,系数的选择重点在于“奖励 - 惩罚 = $\Delta$” 。因此,为便于使用,我们就直接选择了1/2。

非常感谢作者耐心解答!