irlab-sdu / fuzi.mingcha

夫子•明察司法大模型是由山东大学、浪潮云、**政法大学联合研发,以 ChatGLM 为大模型底座,基于海量中文无监督司法语料与有监督司法微调数据训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能,旨在为用户提供全方位、高精准的法律咨询与解答服务。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

想请教下楼主如何基于ChatGLM进行无监督预训练的

Olivia-xu opened this issue · comments

您好,感谢您对夫子•明察项目的关注,

我们参考了一些开源项目[1][2]和其他模型的预训练方法 (比如 LLaMA 等),使用的是普通的自回归生成任务,没有完全按照 GLM 论文中所采用的类BERT的训练任务。

自回归生成任务大致对应于 GLM130B 论文[3]中的 Self-Supervised Blank Infilling (95% tokens)

我们使用的格式为

[gMASK] <sop> X1 [gMASK] <sop> X2 [gMASK] <sop> X3 ...

其中 [gMASK]<sop> 是 ChatGLM 中的 special token,[gMASK] 表示长文本生成的掩码占位符。

对于训练语料,我们使用了公开的法律文书和法律法规数据集,详见 训练数据的介绍

[1] https://github.com/hiyouga/ChatGLM-Efficient-Tuning
[2] https://github.com/hiyouga/LLaMA-Efficient-Tuning
[3] GLM-130B: An Open Bilingual Pre-trained Model, Aohan et al. ICLR22'