MSRA NER数据集是错误的！

Question

MSRA NER数据集是错误的！

shaonan1993 opened this issue 3 years ago · comments

人民日报的dev集和test集反而是真正MSRA NER数据集的test集

ernie给了原始数据集的下载：
https://github.com/PaddlePaddle/ERNIE

En Ouyang · Answer 1 · Wed Aug 18 2021 16:16:48 GMT+0800 (China Standard Time)

同学你好非常感谢你提出这个问题，不然这个repo都没有什么活跃度
我也去做了一些考证，到底这个MSRA NER的数据集是怎么构成的，我先说结论，就是我也没有结论，所以还是摆事实吧，
我在各个来源上找了很多叫MSRA NER的数据集，比如github，Hanlp source，一个NER的repo，各种NER的paper，里面提及的MSRA数据集的情况都是差不多这样：

可以看到最开始的数据集是没有dev set的，句子数有可能变化，因为做了分句什么的，但是字数是基本不变，也就是training set：2169.9k，test set：172.6k；但是ERNIE这个数据集里面的字数大概是：training：979k，dev：109k，test：219k，这与大多数号称MSRA NER数据集的情况是不相符合的，但是ERNIE提供的这个数据集又与我这个repo提供的数据集有overlap，这个你可以自己验证。写到这里我突然发现我这个repo提到的People's Daily(人民日报) dataset和ERNIE提供的MSRA NER数据集的情况似乎一样，这大概也是另一个issue提到的问题，真相大白。
对了，我还参看了MSRA这个数据集的原始论文，里面提及了这个数据集的情况：

可以看到，如果把文中的Wds理解为字数，其实也和我这个repo提供的MSRA NER数据集有些出入，但如果是理解为词数（因为这个数据集当时也用来测试中文分词这个任务了），也许就对上了，你可以自己试试看。
所以到底哪个是真正MSRA NER数据集，就要你自己判断了。