想请教下楼主如何基于ChatGLM进行无监督预训练的

Question

Olivia-xu opened this issue 10 months ago · comments

Shiguang Wu · Answer 1 · Wed Oct 18 2023 14:58:40 GMT+0800 (China Standard Time)

您好，感谢您对夫子•明察项目的关注，

我们参考了一些开源项目[1][2]和其他模型的预训练方法（比如 LLaMA 等），使用的是普通的自回归生成任务，没有完全按照 GLM 论文中所采用的类BERT的训练任务。

自回归生成任务大致对应于 GLM130B 论文[3]中的 Self-Supervised Blank Infilling (95% tokens)。

我们使用的格式为

[gMASK] <sop> X1 [gMASK] <sop> X2 [gMASK] <sop> X3 ...

其中 [gMASK] 和 <sop> 是 ChatGLM 中的 special token，[gMASK] 表示长文本生成的掩码占位符。

对于训练语料，我们使用了公开的法律文书和法律法规数据集，详见训练数据的介绍。