请问有人使用GLM跑通过Continual Pre-training么？

Question

wjn1996 opened this issue 10 months ago · comments

预训练语料是否需要自行处理，还是GLM在训练前可以自动帮我们生成含有mask的文本？预训练数据应该存放在哪个目录下，数据格式是怎样的（是否直接就是纯文本？）
能否支持新增special token？我在tokenization.py文件里看到了一些包括[gMASK]，[sMASK]，[dBLOCK]等标记，是否需要改此文件？
如果自己想更改或新增一些对预训练数据的mask任务，应该在哪里进行编写代码？