想问下tinybert Task-specific Distillation第一步中间层蒸馏的评价指标

Question

wsh2836741 opened this issue a year ago · comments

感觉团队杰出的工作。关于Task-specific Distillation第一步中间层蒸馏，比如我是分类任务，由于中间层蒸馏不会训练最后的分类层参数，所以想问下第一步中间层蒸馏的评价指标是什么？还是说不需要关注评价指标，只看loss下降，模型收敛就可以？非常感谢！

charliezjw · Answer 1 · Tue Nov 15 2022 08:13:57 GMT+0800 (China Standard Time)

在我的理解中loss只会back propagate，前L layer的loss并不会update L+1 layer的weight

wsh2836741 · Answer 2 · Tue Nov 15 2022 10:16:32 GMT+0800 (China Standard Time)

@charliezjw 嗯嗯我也是这么理解，所以那么Task-specific Distillation第一步中间层蒸馏训练时是不是不需要关注评价指标，只看loss下降就可以？