shjwudp / shu

中文书籍收录整理, Collection of Chinese Books

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

请教数据集的大小

2018211801 opened this issue · comments

你好呀,请问目前此数据集规模有多大呀?我想了解下在llama上预训练的时间花费。在知乎看到使用此数据集,16卡一个半小时就能训完非常好奇。

@2018211801 你好!欢迎提问,这个数据集目前在huggingface上维护,链接,清洁文本token数目应该在1B左右。

另外,好奇问一下,我不知道有人在用这个数据集训练,帮忙共享我一下知乎上的链接,感谢。