请问pretrain怎么控制训练的epoch数？

Question

请问pretrain怎么控制训练的epoch数？

wusi1590 opened this issue a year ago · comments

--epochs参数没用
实际跑的过程中只能训练一轮，执行到dataloader为空就停止了
报这个
File "/.local/lib/python3.9/site-packages/torch/utils/data/dataloader.py", line 628, in next
data = self._next_data()
File "/.local/lib/python3.9/site-packages/torch/utils/data/dataloader.py", line 1306, in _next_data
raise StopIteration
StopIteration

zhangzai666 · Answer 1 · Thu Apr 13 2023 20:46:05 GMT+0800 (China Standard Time)

您好，请问您的预训练数据集哪里下载的

wusi1590 · Answer 2 · Fri Apr 14 2023 09:21:46 GMT+0800 (China Standard Time)

您好，请问您的预训练数据集哪里下载的

GLM的页面有一些数据的下载地址，比如wikitext的数据：https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-103-v1.zip

zhangzai666 · Answer 3 · Fri Apr 14 2023 09:33:31 GMT+0800 (China Standard Time)

您好，请问您的预训练数据集哪里下载的

GLM的页面有一些数据的下载地址，比如wikitext的数据：https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-103-v1.zip

感谢您的回答，我想继续预训练GLM-chinese。但是我发现代码中的数据集是.lazy文件。这个您这边有示例么

wusi1590 · Answer 4 · Fri Apr 14 2023 09:54:32 GMT+0800 (China Standard Time)

您好，请问您的预训练数据集哪里下载的

GLM的页面有一些数据的下载地址，比如wikitext的数据：https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-103-v1.zip

感谢您的回答，我想继续预训练GLM-chinese。但是我发现代码中的数据集是.lazy文件。这个您这边有示例么

直接用json文件就行，在corpora.py里面把数据的PATH改了，相应的代码根据你的数据列名稍微改动一下。

第一次读取数据后会自动生成.lazy文件夹

zhangzai666 · Answer 5 · Fri Apr 14 2023 11:47:50 GMT+0800 (China Standard Time)

非常感谢您的回答，请问是这种类型的么：
{"title":"XXX","content":""}
{"title":"XXX","content":""}
{"title":"XXX","content":""}
即一行一个json就可以么

wusi1590 · Answer 6 · Mon Apr 17 2023 20:27:00 GMT+0800 (China Standard Time)

非常感谢您的回答，请问是这种类型的么： {"title":"XXX","content":""} {"title":"XXX","content":""} {"title":"XXX","content":""} 即一行一个json就可以么

是的

hrdxwandg · Answer 7 · Wed May 31 2023 16:02:39 GMT+0800 (China Standard Time)

您好，请问您的预训练数据集哪里下载的

可以用这个 https://data.baai.ac.cn/details/WuDaoCorporaText