THUDM / GLM

GLM (General Language Model)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

请问pretrain怎么控制训练的epoch数?

wusi1590 opened this issue · comments

--epochs参数没用
实际跑的过程中只能训练一轮,执行到dataloader为空就停止了
报这个
File "/.local/lib/python3.9/site-packages/torch/utils/data/dataloader.py", line 628, in next
data = self._next_data()
File "/.local/lib/python3.9/site-packages/torch/utils/data/dataloader.py", line 1306, in _next_data
raise StopIteration
StopIteration

您好,请问您的预训练数据集哪里下载的

您好,请问您的预训练数据集哪里下载的

GLM的页面有一些数据的下载地址,比如wikitext的数据:https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-103-v1.zip

您好,请问您的预训练数据集哪里下载的

GLM的页面有一些数据的下载地址,比如wikitext的数据:https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-103-v1.zip

感谢您的回答,我想继续预训练GLM-chinese。但是我发现代码中的数据集是.lazy文件。这个您这边有示例么

您好,请问您的预训练数据集哪里下载的

GLM的页面有一些数据的下载地址,比如wikitext的数据:https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-103-v1.zip

感谢您的回答,我想继续预训练GLM-chinese。但是我发现代码中的数据集是.lazy文件。这个您这边有示例么

直接用json文件就行,在corpora.py里面把数据的PATH改了,相应的代码根据你的数据列名稍微改动一下。

第一次读取数据后会自动生成.lazy文件夹

非常感谢您的回答,请问是这种类型的么:
{"title":"XXX","content":""}
{"title":"XXX","content":""}
{"title":"XXX","content":""}
即一行一个json就可以么

非常感谢您的回答,请问是这种类型的么: {"title":"XXX","content":""} {"title":"XXX","content":""} {"title":"XXX","content":""} 即一行一个json就可以么

是的

您好,请问您的预训练数据集哪里下载的

可以用这个 https://data.baai.ac.cn/details/WuDaoCorporaText