ares5221 / Common-NLP-Datasets

Common-NLP-Datasets

本项目用于收集整理常用的NLP数据集

chatbot

开放领域数据

闲聊数据项目

数据下载地址：链接：https://pan.baidu.com/s/18a9zJHfIXMvsceV4iCM_Mg 提取码：fce3

chatbot资料

https://github.com/ares5221/Question-Answer-Datasets/tree/master/chatbot-doc

todo...

文本分类

ID	标题；	更新日期	数据集提供者	许可	说明	关键字	类别	论文地址	备注
1	2018“达观杯”文本智能处理挑战赛	2018年7月	达观数据		数据集来源于达观数据，为长文本分类任务，其主要包括了id，article，word_seg和class四个字段，数据包含19个类别，共102275条样本	长文本；脱敏	文本分类	\	中文https://www.dcjingsai.com/common/cmpt/%E2%80%9C%E8%BE%BE%E8%A7%82%E6%9D%AF%E2%80%9D%E6%96%87%E6%9C%AC%E6%99%BA%E8%83%BD%E5%A4%84%E7%90%86%E6%8C%91%E6%88%98%E8%B5%9B_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html
2	今日头条中文新闻（文本）分类	2018年5月	今日头条		数据集来源于今日头条，为短文本分类任务，数据包含15个类别，共382688条样本	短文本；新闻	文本分类	\	中文
3	THUCNews中文文本分类	2016年	清华大学		THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐，共74万篇新闻文档（2.19 GB）	文档；新闻	文本分类	\	中文；网盘地址：链接：https://pan.baidu.com/s/1aIvbvLATV3fxBj8vPU9VsQ 提取码：c5qm
4	复旦大学中文文本分类	\	复旦大学计算机信息与技术系国际数据库中心自然语言处理小组		数据集来源于复旦大学，为短文本分类任务，数据包含20个类别，共9804篇文档	文档；新闻	文本分类	\	中文
5	新闻标题短文本分类	2019年12月	chenfengshf	CC0 公共领域共享	数据集来源于Kesci平台，为新闻标题领域短文本分类任务。内容大多为短文本标题(length<50)，数据包含15个类别，共38w条样本	短文本；新闻标题	文本分类	\	中文https://www.kesci.com/home/dataset/5dd645fca0cb22002c94e65d/files
6	2017 知乎看山杯机器学习挑战赛	2017年6月	**人工智能学会;知乎		数据集来源于知乎，为问题及话题标签的绑定关系的标注数据，每个问题有 1 个或多个标签，累计1999 个标签，共包含 300 万个问题	问题；短文本	文本分类	\	中文；云盘地址：链接: https://pan.baidu.com/s/1BpZtajhewUDYwcjJw4f39Q 提取码: xc9h
7	2019之江杯-电商评论观点挖掘大赛	2019年8月	之江实验室		本次品牌评论观点挖掘的任务是在商品评论中抽取商品属性特征和消费者观点，并确认其情感极性和属性种类。对于商品的某一个属性特征，存在着一系列描述它的观点词，它们代表了消费者对该属性特征的观点。每一组{商品属性特征，消费者观点}具有相应的情感极性（负面、中性、正面），代表了消费者对该属性的满意程度	评论；短文本	文本分类	\	中文
8	IFLYTEK' 长文本分类	\	科大讯飞		该数据集共有1.7万多条关于app应用描述的长文本标注数据，包含和日常生活相关的各类应用主题，共119个类别	长文本	文本分类	\	中文
9	全网新闻分类数据(SogouCA)	2012年8月16号	搜狗		该数据来自若干新闻站点2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据	新闻	文本分类	\	中文
10	搜狐新闻数据(SogouCS)	2012年8月	搜狗		数据来源为搜狐新闻2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据	新闻	文本分类	\	中文
11	中科大新闻分类语料库	2017年11月	刘禹 **科学院自动化研究所综合信息中心		暂时不能下载，已经联系作者，等待反馈	新闻
12	ChnSentiCorp_htl_all	2018年3月	携程网		7000 多条酒店评论数据，5000 多条正向评论，2000 多条负向评论		情感/观点/评论倾向性分析
13	waimai_10k	2018年3月			某外卖平台收集的用户评价，正向 4000 条，负向约 8000 条		情感/观点/评论倾向性分析
14	online_shopping_10_cats	2018年3月			10 个类别，共 6 万多条评论数据，正、负向评论各约 3 万条，包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店
15	weibo_senti_100k	2018年3月			10 万多条，带情感标注新浪微博，正负向评论约各 5 万条
16	simplifyweibo_4_moods	2018年3月			36 万多条，带情感标注新浪微博，包含 4 种情感，其中喜悦约 20 万条，愤怒、厌恶、低落各约 5 万条
17	dmsc	2018年3月			28 部电影，超 70 万用户，超 200 万条评分/评论数据		可用于推荐系统
18	yf_dianping	2018年3月			24 万家餐馆，54 万用户，440 万条评论/评分数据		可用于推荐系统
19	yf_amazon	2018年3月			52 万件商品，1100 多个类目，142 万用户，720 万条评论/评分数据		可用于推荐系统

文本匹配

ID	标题	更新日期	数据集提供者	许可	说明	关键字	类别	论文地址	备注
1	LCQMC	2018/6/6	哈工大(深圳)智能计算研究中心	Creative Commons Attribution 4.0 International License	该数据集共包含来自多个领域的260068个中文问句对，相同询问意图的句子对标记为1，否则为0；并预先将其切分为了训练集：238766对，验证集：8802对，测试集：12500对	大规模问句匹配；意图匹配	短文本匹配；问句匹配	论文
2	The BQ Corpus	2018/9/4	哈工大(深圳)智能计算研究中心；微众银行		该数据集共有120000个句子对，来自银行一年中的咨询服务日志；句子对包含不同的意图，标记正负样本比例为1:1	银行服务问句；意图匹配	短文本匹配；问句一致性检测	论文
3	ATEC 蚂蚁金融语义相似度	2018/4/25	蚂蚁金服		提供10万对的标注数据（分批次更新，已更新完毕），作为训练数据，包括同义对和不同义对	金融问句	短文本匹配；问句匹配	比赛数据[https://dc.cloud.alipay.com/index?click_from=MAIL&_bdType=acafbbbiahdahhadhiih#/topic/intro?id=3]
4	第三届拍拍贷“魔镜杯”大赛	2018/6/10	拍拍贷智慧金融研究院		train.csv文件包含3列，分别是标签（label，表示问题1和问题2是否表示相同的意思，1表示相同，0表示不同），问题1的编号（q1）和问题2的编号（q2）。本文件中出现的所有问题编号均在question.csv中出现过	金融产品	短文本匹配；问句匹配		脱敏数据，无法直接对文本生成词向量
5	CAIL2019相似案例匹配大赛	2019/6	清华大学；**裁判文书网		对于每份数据，用三元组(A,B,C)来代表该组数据，其中A,B,C均对应某一篇文书。文书数据A与B的相似度总是大于A与B的相似度的，即sim(A,B)>sim(A,C)	法律文书；相似案例	长文本匹配		**法研杯司法人工智能挑战赛
6	CCKS 2018 微众银行智能客服问句匹配大赛	2018/4/5	哈工大(深圳)智能计算研究中心；微众银行			银行服务问句；意图匹配	短文本匹配；问句匹配
7	ChineseTextualInference	2018/12/15	刘焕勇，**科学院软件研究所		中文文本推断项目,包括88万文本蕴含中文文本蕴含数据集的翻译与构建,基于深度学习的文本蕴含判定模型构建	中文NLI	中文文本推断；文本蕴含
8	NLPCC-DBQA	2016/2017/2018	NLPCC		给定问题-答案，以及该答案是否是该问题的答案之一的标记，1表示是，0表示不是	DBQA	问答匹配
9	“技术需求”与“技术成果”项目之间关联度计算模型	201/8/32	CCF		给定文本形式的技术需求和技术成果，以及需求与成果的关联度标签；其中技术需求与技术成果之间的关联度分为四个层级：强相关、较强相关、弱相关、无相关	长文本；需求与成果匹配	长文本匹配
10	CNSD / CLUE-CMNLI	2019/12	ZengJunjun		中文自然语言推理数据集，本数据及通过翻译加部分人工修正的方法，从英文原数据集生成，可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题	中文NLI	中文自然语言推断	https://6a75-junzeng-uxxxm-1300734931.tcb.qcloud.la/CNSD.pdf?sign=401485f4d6f256393a264e68464ca4ae&t=1578114336
11	cMedQA v1.0	2017/4/5	寻药寻医网和国防科技大学信息系统及管理学院		该数据集来源为寻医寻药网站中的提问和回答，数据集做过匿名处理，提供的是包含训练集中有50,000个问题，94,134个答案，平均每个问题、答案字符数分别为为120、212个；验证集有2,000个问题，有3774个答案，问题和答案的平均字符数分别为117和212个；测试集有2,000个问题，有3835个答案，问题和答案的平均字符数分别为119和211个；数据集总量有54,000个问题，101,743个答案，平均每个问题和答案的字符数分别为119、212个；	医疗问答匹配	问答匹配	https://www.mdpi.com/2076-3417/7/8/767
12	cMedQA2	2018/11/8	寻药寻医网和国防科技大学信息系统及管理学院		该数据集来源为寻医寻药网站中的提问和回答，数据集做过匿名处理，提供的是包含训练集中有100,000个问题，188,490个答案，平均每个问题、答案字符数分别为为48、101个；验证集有4,000个问题，有7527个答案，问题和答案的平均字符数分别为49和101个；测试集有4,000个问题，有7552个答案，问题和答案的平均字符数分别为49和100个；数据集总量有108,000个问题，203,569个答案，平均每个问题和答案的字符数分别为49、101个；	医疗问答匹配	问答匹配	https://www.mdpi.com/2076-3417/7/8/767
13	ChineseSTS	2017/9/21	唐善成, 白云悦, 马付玉. 西安科技大学		该数据集提供了12747对中文相似数据集，在数据集后作者给出了他们相似度的打分，语料由短句构成。	短句相似度匹配	相似度匹配
14	**健康信息处理会议举办的医疗问题相似度衡量竞赛数据集	2018	CHIP 2018-第四届**健康信息处理会议（CHIP）		本次评测任务的主要目标是针对中文的真实患者健康咨询语料，进行问句意图匹配。给定两个语句，要求判定两者意图是否相同或者相近。所有语料来自互联网上患者真实的问题，并经过了筛选和人工的意图匹配标注。数据集经过脱敏处理，问题由数字标示训练集包含20000条左右标注好的数据（经过脱敏处理，包含标点符号），测试集包含10000条左右无label的数据（经过脱敏处理，包含标点> 符号）。	医疗问题相似度匹配	相似度匹配
15	COS960: A Chinese Word Similarity Dataset of 960 Word Pairs	2019/6/6	清华大学		该数据集中包含了960对单词，并且每对单词都被15个母语者用相似度分数来衡量这960个词对根据标签被分成三组，包含480对名词，240对动词和240对形容词。	单词之间的相似度	同义词	https://arxiv.org/abs/1906.00247
16	[OPPO手机搜索排序query-title语义匹配数据集。](https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 密码7p3n)	2018/11/6	OPPO		该数据集来自于OPPO手机搜索排序优化实时搜索场景, 该场景就是在用户不断输入过程中，实时返回查询结果。该数据集在此基础上做了相应的简化，提供了一个query-title语义匹配，即ctr预测的问题。	问题标题匹配， ctr预测	相似度匹配
17	网页搜索结果评价(SogouE)	2012年	搜狗	搜狗实验室数据使用许可协议	该数据集包含了查询词，相关URL以及查询类别的搜索数据，格式如下数据格式说明：查询词]\t相关的URL\t查询类别其中URL保证存在于对应的互联网语料库；查询类别中“1”表示导航类查询；“2”表示信息类查询	Automatic Search Engine Performance Evaluation with Click-through Data Analysis	查询类型匹配预测

多轮对话

ID	标题	更新日期	数据集提供者	许可	说明	关键字	类别	论文地址	备注
1	Emotional First Aid Dataset	2020/04/22	北京华夏春松科技有限公司		心理咨询问答语料库（以下也称为“数据集”，“语料库”）是为应用人工智能技术于心理咨询领域制作的语料。据我们所知，这是心理咨询领域首个开放的 QA 语料库，包括 20,000 条心理咨询数据，也是公开的最大的中文心理咨询对话语料。数据集内容丰富，不但具备多轮对话内容，也有分类等信息，制作过程耗费大量时间和精力，比如标注过程是面向多轮对话，平均每条标记耗时 1 分钟。	多轮对话；心理咨询	对话；分类		有对应的demo api
2	Chinese-Psychological-QA-DataSet		壹心理		102845 条社区问答对示例数据		中文心理问答数据集

QA&FQA

ID	标题	更新日期	数据集提供者	许可	说明	关键字	类别	论文地址	备注
1	NewsQA	2019/9/13	微软研究院		Maluuba NewsQA数据集的目的是帮助研究社区构建能够回答需要人类水平的理解和推理技能的问题的算法。包含超过12000篇新闻文章和120,000答案，每篇文章平均616个单词，每个问题有2～3个答案。	英文	QA	论文
2	SQuAD		斯坦福		斯坦福问答数据集（SQuAD）是一个阅读理解数据集，由维基百科的一组文章上提出的问题组成，其中每个问题的答案都是一段文本，可能来自相应的阅读段落，或者问题可能是未解答的。	英文	QA	论文
3	SimpleQuestions		Facebook		基于存储网络的大规模简单问答系统, 数据集提供了一个多任务问答数据集，数据集有100K简单问题的回答。	英文	QA	论文
4	WikiQA	2016/7/14	微软研究院		为了反映一般用户的真实信息需求，WikiQA使用Bing查询日志作为问题源。每个问题都链接到一个可能有答案的维基百科页面。因为维基百科页面的摘要部分提供了关于这个主题的基本且通常最重要的信息，所以使用本节中的句子作为候选答案。在众包的帮助下，数据集中包括3047个问题和29258个句子，其中1473个句子被标记为对应问题的回答句子。	英文	QA	论文
5	cMedQA	2019/2/25	Zhang Sheng		医学在线论坛的数据，包含5.4万个问题，及对应的约10万个回答。	中文	QA	论文
6	cMedQA2	2019/1/9	Zhang Sheng		cMedQA的扩展版，包含约10万个医学相关问题，及对应的约20万个回答。	中文	QA	论文
7	webMedQA	2019/3/10	He Junqing		一个医学在线问答数据集，包含6万个问题和31万个回答，而且包含问题的类别。	中文	QA	论文
8	XQA	2019/7/29	清华大学		该篇文章主要是针对开放式问答构建了一个跨语言的开放式问答数据集，该数据集（训练集、测试集）主要包括九种语言，9万多个问答。	多语言	QA	论文
9	AmazonQA	2019/9/29	亚马逊		卡耐基梅隆大学针对亚马逊平台上问题重复回答的痛点，提出了基于评论的QA模型任务，即利用先前对某一产品的问答，QA系统自动总结出一个答案给客户	英文	QA	论文
10	保险知道					8000 多条保险行业问答数据，包括用户提问、网友回答、最佳回答
11	安徽电信知道					15.6 万条电信问答数据，包括用户提问、网友回答、最佳回答
12	金融知道					77 万条金融行业问答数据，包括用户提问、网友回答、最佳回答
13	法律知道					3.6 万条法律问答数据，包括用户提问、网友回答、最佳回答
14	联通知道					20.3 万条联通问答数据，包括用户提问、网友回答、最佳回答
15	农行知道					4 万条农业银行问答数据，包括用户提问、网友回答、最佳回答
16	保险知道					58.8 万条保险行业问答数据，包括用户提问、网友回答、最佳回答

推荐系统

ID	标题	更新日期	数据集提供者	许可	数据说明	关键字	类别	论文地址	备注
1	ez_douban				5 万多部电影（3 万多有电影名称，2 万多没有电影名称），2.8 万用户，280 万条评分数据

知识问答

ID	标题	更新日期	数据集提供者	许可	说明	关键字	类别	论文地址	备注

1	WebQA	2017	baidu		来自百度知道的问答数据	大规模问答数据	问答数据	[论文]Peng Li, Wei Li, Zhengyan He, Xuguang Wang, Ying Cao, Jie Zhou, and Wei Xu. 2016. Dataset and Neural Recurrent Sequence Labeling Model for Open-Domain Factoid Question Answering. arXiv:1607.06275 .)
2

NER

ID	标题	更新日期	数据集提供者	许可	说明	关键字	类别	论文地址	备注
1	CCKS2017中文电子病例命名实体识别	2017年5月	北京极目云健康科技有限公司		数据来源于其云医院平台的真实电子病历数据，共计800条（单个病人单次就诊记录），经脱敏处理	电子病历	命名实体识别	\	中文
2	CCKS2018中文电子病例命名实体识别	2018年	医渡云（北京）技术有限公司		CCKS2018的电子病历命名实体识别的评测任务提供了600份标注好的电子病历文本，共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体	电子病历	命名实体识别	\	中文
3	微软亚研院MSRA命名实体识别识别数据集	\	MSRA		数据来源于MSRA，标注形式为BIO，共有46365条语料	Msra	命名实体识别	\	中文
4	1998人民日报语料集实体识别标注集	1998年1月	人民日报		数据来源为98年人民日报，标注形式为BIO，共有23061条语料	98人民日报	命名实体识别	\	中文
5	Boson	\	玻森数据		数据来源为Boson，标注形式为BMEO,共有2000条语料	Boson	命名实体识别	\	中文
6	CLUE Fine-Grain NER	2020年	CLUE		CLUENER2020数据集，是在清华大学开源的文本分类数据集THUCTC基础上，选出部分数据进行细粒度命名实体标注，原数据来源于Sina News RSS。数据包含10个标签类别，训练集共有10748条语料，验证集共有1343条语料	细粒度；CULE	命名实体识别	\	中文
7	CoNLL-2003	2003	CNTS - Language Technology Group		数据来源于CoNLL-2003的任务，该数据标注了包括PER, LOC, ORG和MISC的四个类别	CoNLL-2003	命名实体识别	论文	英文
8	微博实体识别	2015年	https://github.com/hltcoe/golden-horse			EMNLP-2015	命名实体识别
9	SIGHAN Bakeoff 2005	2005年	MSR/PKU			bakeoff-2005	命名实体识别

About

Languages

Language:Python 52.7%Language:Jupyter Notebook 46.0%Language:Shell 1.3%