Chinese_NER_Dataset
自己标注的500条中文命名实体识别数据;
213条新闻文本(42.6%),287条微博文本(57.4%);
因自身任务需求,只标注了地名和组织机构名;
总计标注了约1W个(9547)个实体标签(BIO的标注形式);
统计结果如下:
集合 | 句子数 | 地名实体 | 组织机构实体 | Total |
---|---|---|---|---|
训练集 | 2451 | 3008 | 2600 | 5608 |
验证集 | 702 | 1389 | 1183 | 2572 |
测试集 | 439 | 887 | 480 | 1367 |
总计 | 3592 | 5284 | 4263 | 9547 |
有问题和想法请提issue;