yitu-opensource / ConvBert

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

用自己的数据预训练 各种nah loss 问题

652994331 opened this issue · comments

您好,感谢您的开源。我用自己的数据进行预训练 默认的2e-4 lr 的base 模型 一开始训练就nah loss. 换成 medium-small 模型 使用 2e-4 2e-5 均存在 训练大概几千步nah loss 退出训练的问题 想请教下解决办法

您好,我们不太清楚您使用的数据是否存在预处理上的问题,可以参考tensorflow/tensor2tensor#574 (comment)

@zihangJiang 谢谢回复, 我看到这个的数据处理和electra差不多 处理出来的也是多个tfrecord分片 我用的是build_dataset那个脚本 不是 opentxt 那个 electra 我也用的一样的数据源 一样的脚本 electra预训练很正常 ,不知道您这边数据处理脚本和electra是不是一样的,还是做了一些修改

您好,我们预处理是和electra一致的,可能的不同是我们default的max-seq-length是128。