zgzjdx / Chinese_NER_Dataset

自己标注的中文命名实体识别数据

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Chinese_NER_Dataset

自己标注的500条中文命名实体识别数据;
213条新闻文本(42.6%),287条微博文本(57.4%);
因自身任务需求,只标注了地名和组织机构名; 总计标注了约1W个(9547)个实体标签(BIO的标注形式);
统计结果如下:

集合 句子数 地名实体 组织机构实体 Total
训练集 2451 3008 2600 5608
验证集 702 1389 1183 2572
测试集 439 887 480 1367
总计 3592 5284 4263 9547

有问题和想法请提issue;

About

自己标注的中文命名实体识别数据

License:MIT License