请问使用tpu还是gpu训练
RyanHuangNLP opened this issue · comments
RyanHuangNLP commented
在论文里没有看到训练使用的算力介绍
Jiang Zihang commented
您好,我们是使用tpu训练的。
RyanHuangNLP commented
@zihangJiang 你好,还想了解一下,你们使用Electra的训练方式,有和MLM的训练方式做一下对比吗
Jiang Zihang commented
您好,我们也对比了MLM的训练方式,可以参考paper appendix Table 7.
RyanHuangNLP commented
@zihangJiang 后续模型会加入到huggingface的transformers框架中吗
Jiang Zihang commented
您好,暂时还没有计划,之后应该会考虑。
RyanHuangNLP commented
@zihangJiang 还有一个细节想了解一下,我看预训练里面的参数,输入的序列长度都是128,想了解一下训练效率是Electra的1/4的其中一个原因是输入序列长度的原因吗?
Jiang Zihang commented
您好,是的