pluto-junzeng / C4-zh

大规模中文语料

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

C4-zh

随着预训练模型发展,中文预训练模型对于学术界和工业界更加重要,我们从C4 以及其他公开的数据集中中文自然语言数据集,从而构建大规模高质量的中文预训练语料

目标

构建100G的高质量中文无监督语料,来源新闻,百科,评论等

数据来源

  • 已有数据大小
数据来源 数据规模 大小 数据来源链接 下载链接(自行构建或清洗)
搜狐新闻 2008~2019 共计600w条 ,未出重 21G 2012 2014-2016 2009-2016
百度知道 60万条 3G
百度搜索 60万条 3G
新浪新闻 2008~2019滚动新闻 共计 10w条 2G
百度百科 2012年百度百科 ,400w词条 22G
百度百科 2019年百度百科,500w词条 50G baike.baidu.com 不提供下载,下载教程
清华新闻 86万条 4G
维基中文 50万条 2G
微信公众号文章 未知 3G 来源

Reference

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP https://github.com/brightmart/nlp_chinese_corpus

About

大规模中文语料