huawei-noah / Pretrained-Language-Model

Pretrained language model and its related optimization techniques developed by Huawei Noah's Ark Lab.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

想问下tinybert Task-specific Distillation第一步中间层蒸馏的评价指标

wsh2836741 opened this issue · comments

感觉团队杰出的工作。关于Task-specific Distillation第一步中间层蒸馏,比如我是分类任务,由于中间层蒸馏不会训练最后的分类层参数,所以想问下第一步中间层蒸馏的评价指标是什么?还是说不需要关注评价指标,只看loss下降,模型收敛就可以?非常感谢!

在我的理解中loss只会back propagate,前L layer的loss并不会update L+1 layer的weight

@charliezjw 嗯嗯我也是这么理解,所以那么Task-specific Distillation第一步中间层蒸馏训练时是不是不需要关注评价指标,只看loss下降就可以?