关于预训练的问题
yygle opened this issue · comments
yangyuguang commented
我想请问一下,在实际预训练过程中,如何去判断训练多少步是足够的,另外训练过程中loss大概是多少,我目前在9-11左右一直在徘徊,是不是有问题?
Jiang Zihang commented
您好,我们预训练任务主要是采用的electra的replaced token detection,loss曲线可以参考google-research/electra#3.
yygle opened this issue · comments
我想请问一下,在实际预训练过程中,如何去判断训练多少步是足够的,另外训练过程中loss大概是多少,我目前在9-11左右一直在徘徊,是不是有问题?
您好,我们预训练任务主要是采用的electra的replaced token detection,loss曲线可以参考google-research/electra#3.