GPT2Dataset和BlockDataset
jiangix-paper opened this issue · comments
jiangix-paper commented
你好,在data_utils.dataset.py文件中有两个定义预训练数据的类,分别是GPT2Dataset和BlockDataset。我理解这两个类是对预训练样本进行随机mask,然后预测。请问这两个类在进行随机mask的时候有区别吗?
GLM (General Language Model)
jiangix-paper opened this issue · comments
你好,在data_utils.dataset.py文件中有两个定义预训练数据的类,分别是GPT2Dataset和BlockDataset。我理解这两个类是对预训练样本进行随机mask,然后预测。请问这两个类在进行随机mask的时候有区别吗?