响应符尧博士的号召,危机存亡之秋,为避免技术断代,为将几千年历史的中文之美传承给AI。
中文互联网上最古老最神秘(没有之一)的里屋社区于2023.1.1庄重宣布:
在英明神武的里屋管理员带领下,决心发挥社区所长(哪都长),帮助开源社区长期更新一份最大的中文互联网语料集
MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集。
目前总数据量363.36GB,目标是达到chatGPT的40T数据,目前进度0.9%。
压缩包内后缀为txt和json的文件均可作为中文纯文本语料
压缩包根目录的links.txt里有每个子文件夹数据来源的url
每个子文件夹内有一张png格式的图片,是数据来源的网页截图
收录的数据将去掉大于等于8位的数字串进行脱敏
我们没有能力对数据来源进行版权审核。虽然本数据集包括了数据来源信息,但为了长而持久的提供数据集的更新和下载,为了尽量避免版权争议,本数据集不提供压缩包内数据的索引和分类。并恳请大家克制住自己的分享欲,不要讨论压缩包的索引及所包含具体内容的信息。请大家更多的关注大数据量语料本身的应用,拜托大家低调的使用数据。
20221224.zip 压缩包4.57GB,原始13.45GB
NAS下载、
百度网盘 提取码: 52fu
20221225.zip 压缩包7.53GB,原始17.68GB
NAS下载、
百度网盘 提取码: p1fs
20230101.zip 压缩包7.34GB,原始17.11GB
NAS下载、
百度网盘 提取码: q6ij
20230102.zip 压缩包22.14GB,原始51.8GB
NAS下载、
百度网盘 提取码: tckd
20230103.zip 压缩包12.35GB,原始27.97GB
NAS下载、
百度网盘 提取码: 7dpr
20230104.zip 压缩包12.36GB,原始28.54GB
NAS下载、
百度网盘 提取码: 87c6
20230105.zip 压缩包15.32GB,原始35.18GB
NAS下载、
百度网盘 提取码: sbrb
20230106.zip 压缩包8.87GB,原始19.45GB
NAS下载、
百度网盘 提取码: m249
20230107.zip 压缩包6.2GB,原始13.14GB
NAS下载、
百度网盘 提取码: qy7w
20230108.zip 压缩包9.56GB,原始25.84GB 此包小文件众多,解压很慢
NAS下载、
百度网盘 提取码: d7xt
20230109.zip 压缩包7.63GB,原始20.84GB
NAS下载、
百度网盘 提取码: gcb3
20230110.zip 压缩包5.79GB,原始15.6GB
NAS下载、
百度网盘 提取码: u2du
20230112.zip 压缩包11.26GB,原始23.92GB
NAS下载、
百度网盘 提取码: f94h
20230113.zip 压缩包8.21GB,原始17.54GB
NAS下载、
百度网盘 提取码: dzpx