THUDM / GLM

GLM (General Language Model)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

GPT2Dataset和BlockDataset

jiangix-paper opened this issue · comments

你好,在data_utils.dataset.py文件中有两个定义预训练数据的类,分别是GPT2Dataset和BlockDataset。我理解这两个类是对预训练样本进行随机mask,然后预测。请问这两个类在进行随机mask的时候有区别吗?