Collections of Chinese NLP corpus
Corpus for open domain, including: law, social media, comments
Word Segmentation and Part-of-Speech
Name |
Description |
Link |
ZhuXian(诛仙) |
小说《诛仙》的POS和分词标注数据 |
zhuxian |
CNLC |
国家语言委员会的数据,train: dev: test=8: 1: 1 |
CNLC |
* the url in the table is out-of-date, you can find the data from the following reference.
Reference:https://github.com/hankcs/multi-criteria-cws/tree/master/data
the details of the corpus
Named Entity Recognition (NER)
Name |
Description |
Link |
MSRA |
中文NER任务最常用数据之一 |
MSRA |
People's Daily |
中文NER任务最常用数据之二 |
People's Daily |
Weibo Data |
中文NER任务最常用数据之三 |
Weibo |
Name |
Description |
Link |
notes |
CAIL2018 |
2018**‘法研杯’法律智能挑战赛(任务:罪名预测、法条推荐、刑期预测)的数据,数据集共包括268万刑法法律文书,共涉及183条罪名,202条法条,刑期长短包括0-25年、无期、死刑。 |
CAIL2018 |
比赛官网, github |
Sentiment Analysis and Rating
Name |
Description |
Link |
notes |
ChnSentiCorp_htl_all |
7000多条酒店评论数据,5000多条正面评论,2000多条负面评论 |
ChnSentiCorp_htl_all |
|
waimai_10k |
某外卖平台收集的用户评价,正面4000条,负面约8000条 |
waimai_10k |
|
online_shopping_10_cats |
10个类别(书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店),共6万多条评论数据,正、负面评论各约3万条 |
online_shopping_10_cats |
|
weibo_senti_100k |
10万多条,带情感标注的新浪微博,正负面评论约各5万条 |
weibo_senti_100k |
参考页面,这个数据集里包含大量emoji,效果可能与emoji相关,训练之前最好去除emoji |
simplifyweibo_4_moods |
36万多条,带情感标注的新浪微博,包含4种情感,其中喜悦约20万条,愤怒、厌恶、低落各约5万条 |
simplifyweibo_4_moods |
|
dmsc_v2 |
28部电影,超70万用户,超 200万条评分/评论数据 |
dmsc_v2 |
|
yf_dianping |
24万家餐馆,54万用户,440万条评论/评分数据 |
yf_dianping |
|
yf_amazon |
52万件商品,1100多个类目,142万用户,720万条评论/评分数据 |
yf_amazon |
|
ez_douban |
5万多部电影(3万多有电影名称,2万多没有电影名称),2.8万用户,280万条评分数据 |
ez_douban |
|
collect corpus for Chinese medical domain, including medical terminology, QA, clinical NER
Name |
Description |
Link |
notes |
CNMER |
中文医学实体识别数据集,实体包括身体部位、症状体征、检查、疾病以及治疗。 |
CNMER |
应该是CCKS2017的数据。 |
CNMER |
识别疾病和诊断、解剖部位、影像检查、实验室检验、手术和药物6种命名实体 |
CCKS2018数据 |
|
CNMER |
识别中文医学命名实体 |
CCKS2019数据 |
来自OpenKG的分享 |