请问重写AdamWeightDecayOptimizer的目的是什么?
rongjunlee opened this issue · comments
感谢代码分享,我观察到你对AdamWeightDecayOptimizer进行了改写,请问直接采用标准的AdamWeightDecayOptimizer会有什么问题么? 改写的初衷是什么?
tensorflow version of bert-of-theseus
rongjunlee opened this issue · comments
感谢代码分享,我观察到你对AdamWeightDecayOptimizer进行了改写,请问直接采用标准的AdamWeightDecayOptimizer会有什么问题么? 改写的初衷是什么?