FreeRolled / NLP_Corpus_Plan

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

NLP_CP stands for NLP Corpus Plan.

It builds a Chinese NLP corpus bank.

语料名称 网盘链接 提取码 备注
百度对话语料 link qnn3 数据集包含百度知道和其他资源,构建了一个这样的一个数据集,4万多个问答对
人民日报语料 link m2nx 数据集包含600多万字节的中文文章进行了分词及词性标注
中文聊语料 link f3vs 数据集包含豆瓣、电视剧对白、贴吧、微博、小黄鸡、青云等对话语料
中文谣言语料 link w9wj 数据集包含从2009年9月4日至2017年6月12日的31669条谣言,json格式
百度信息抽取比赛 link z9hm 数据集共包含 50个已定义好的schema和超过21万中文句子,其中包括17万训练集,2万验证集和2万测试集
百度机器阅读理解比赛 link 4g1b 数据集包含约28万问题,其中包括27万训练集,约3000开发集和7000测试集
百度知识驱动对话比赛 link 47i2 数据集约十几万轮对话,每个session包括对话目标、相关知识信息和对话内容

About


Languages

Language:Python 100.0%