OYE93 / Chinese-NLP-Corpus

Collections of Chinese NLP corpus

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

MSRA NER数据集是错误的!

shaonan1993 opened this issue · comments

人民日报的dev集和test集反而是真正MSRA NER数据集的test集

ernie给了原始数据集的下载:
https://github.com/PaddlePaddle/ERNIE

同学 你好 非常感谢你提出这个问题,不然这个repo都没有什么活跃度
我也去做了一些考证,到底这个MSRA NER的数据集是怎么构成的,我先说结论,就是我也没有结论,所以还是摆事实吧,
我在各个来源上找了很多叫MSRA NER的数据集,比如githubHanlp source一个NER的repo,各种NER的paper,里面提及的MSRA数据集的情况都是差不多这样:
image
可以看到最开始的数据集是没有dev set的,句子数有可能变化,因为做了分句什么的,但是字数是基本不变,也就是training set:2169.9k,test set:172.6k;但是ERNIE这个数据集里面的字数大概是:training:979k,dev:109k,test:219k,这与大多数号称MSRA NER数据集的情况是不相符合的,但是ERNIE提供的这个数据集又与我这个repo提供的数据集有overlap,这个你可以自己验证。写到这里我突然发现我这个repo提到的People's Daily(人民日报) dataset和ERNIE提供的MSRA NER数据集的情况似乎一样,这大概也是另一个issue提到的问题,真相大白。
对了,我还参看了MSRA这个数据集的原始论文,里面提及了这个数据集的情况:
image
可以看到,如果把文中的Wds理解为字数,其实也和我这个repo提供的MSRA NER数据集有些出入,但如果是理解为词数(因为这个数据集当时也用来测试中文分词这个任务了),也许就对上了,你可以自己试试看。
所以到底哪个是真正MSRA NER数据集,就要你自己判断了。