ericxsun / MNBVC

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T网页数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集

响应符尧博士的号召,危机存亡之秋,为避免技术断代,为将几千年历史的中文之美传承给AI。

中文互联网上最古老最神秘(没有之一)的里屋社区于2023.1.1庄重宣布:

在英明神武的里屋管理员带领下,决心发挥社区所长(哪都长),帮助开源社区长期更新一份最大的中文互联网语料集

MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集。

进度

目前总数据量363.36GB,目标是达到chatGPT的40T数据,目前进度0.9%。

数据说明

压缩包内后缀为txt和json的文件均可作为中文纯文本语料

压缩包根目录的links.txt里有每个子文件夹数据来源的url

每个子文件夹内有一张png格式的图片,是数据来源的网页截图

收录的数据将去掉大于等于8位的数字串进行脱敏

索引和分类

我们没有能力对数据来源进行版权审核。虽然本数据集包括了数据来源信息,但为了长而持久的提供数据集的更新和下载,为了尽量避免版权争议,本数据集不提供压缩包内数据的索引和分类。并恳请大家克制住自己的分享欲,不要讨论压缩包的索引及所包含具体内容的信息。请大家更多的关注大数据量语料本身的应用,拜托大家低调的使用数据。

分卷下载信息:

20221224.zip 压缩包4.57GB,原始13.45GB
NAS下载百度网盘 提取码: 52fu

20221225.zip 压缩包7.53GB,原始17.68GB
NAS下载百度网盘 提取码: p1fs

20230101.zip 压缩包7.34GB,原始17.11GB
NAS下载百度网盘 提取码: q6ij

20230102.zip 压缩包22.14GB,原始51.8GB
NAS下载百度网盘 提取码: tckd

20230103.zip 压缩包12.35GB,原始27.97GB
NAS下载百度网盘 提取码: 7dpr

20230104.zip 压缩包12.36GB,原始28.54GB
NAS下载百度网盘 提取码: 87c6

20230105.zip 压缩包15.32GB,原始35.18GB
NAS下载百度网盘 提取码: sbrb

20230106.zip 压缩包8.87GB,原始19.45GB
NAS下载百度网盘 提取码: m249

20230107.zip 压缩包6.2GB,原始13.14GB
NAS下载百度网盘 提取码: qy7w

20230108.zip 压缩包9.56GB,原始25.84GB 此包小文件众多,解压很慢
NAS下载百度网盘 提取码: d7xt

20230109.zip 压缩包7.63GB,原始20.84GB
NAS下载百度网盘 提取码: gcb3

20230110.zip 压缩包5.79GB,原始15.6GB
NAS下载百度网盘 提取码: u2du

20230112.zip 压缩包11.26GB,原始23.92GB
NAS下载百度网盘 提取码: f94h

20230113.zip 压缩包8.21GB,原始17.54GB
NAS下载百度网盘 提取码: dzpx

20230114.zip 压缩包5.65GB,原始14.79GB
NAS下载百度网盘 提取码: jwxm

20230115.zip 压缩包7.53GB,原始20.51GB
NAS下载百度网盘 提取码: 8g1u

About

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T网页数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

License:MIT License