多模型蒸馏本质上是否等价于伪标注

Question

imyhxy opened this issue 3 years ago · comments

假设需要训练分别处于两个数据集中的两个类别：
数据集D1：标注A类别，B类别未标注
数据集D2：标注B类别，A类别未标注
模型M1：检测A类别的模型
模型M2：检测B类别的模型

当训练任意一张图片是，用M1或M2预测缺失的标签，然后作为监督信息，那这样和离线用M1和M2交叉标注D1和D2好像也没有什么区别。

cheng peng · Answer 1 · Wed Dec 23 2020 15:02:40 GMT+0800 (China Standard Time)

宏观上面来说，可以说是等价的，
但是从微观的角度来看，还是不一样，因为蒸馏teacher的输出是一个概率分布，而伪标签是通过卡了阈值以后的0，1值。
蒸馏的teacher输出更像是更合理的label smoothing