THUDM / GLM

GLM (General Language Model)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

请问有人使用GLM跑通过Continual Pre-training么?

wjn1996 opened this issue · comments

请问有人使用GLM跑通过Continual Pre-training么?

  • 预训练语料是否需要自行处理,还是GLM在训练前可以自动帮我们生成含有mask的文本?预训练数据应该存放在哪个目录下,数据格式是怎样的(是否直接就是纯文本?)
  • 能否支持新增special token?我在tokenization.py文件里看到了一些包括[gMASK],[sMASK],[dBLOCK]等标记,是否需要改此文件?
  • 如果自己想更改或新增一些对预训练数据的mask任务,应该在哪里进行编写代码?