想请教下楼主如何基于ChatGLM进行无监督预训练的
Olivia-xu opened this issue · comments
Olivia-xu commented
Shiguang Wu commented
您好,感谢您对夫子•明察项目的关注,
我们参考了一些开源项目[1][2]和其他模型的预训练方法 (比如 LLaMA 等),使用的是普通的自回归生成任务,没有完全按照 GLM 论文中所采用的类BERT的训练任务。
自回归生成任务大致对应于 GLM130B 论文[3]中的 Self-Supervised Blank Infilling (95% tokens)
。
我们使用的格式为
[gMASK] <sop> X1 [gMASK] <sop> X2 [gMASK] <sop> X3 ...
其中 [gMASK]
和 <sop>
是 ChatGLM 中的 special token,[gMASK]
表示长文本生成的掩码占位符。
对于训练语料,我们使用了公开的法律文书和法律法规数据集,详见 训练数据的介绍。
[1] https://github.com/hiyouga/ChatGLM-Efficient-Tuning
[2] https://github.com/hiyouga/LLaMA-Efficient-Tuning
[3] GLM-130B: An Open Bilingual Pre-trained Model, Aohan et al. ICLR22'