模型评价时也仅考虑实体的“最后一个词”吗？

Question

模型评价时也仅考虑实体的“最后一个词”吗？

twjiang opened this issue 5 years ago · comments

我理解模型目前为实体仅拷贝一个词（训练时使用最后一个词），但是评测的时候也仅认为标准答案中所有实体都是最后一个词吗？
目前看处理之后的数据都仅仅记录了最后一个词的位置而没有记录初始位置，训练集使用这个没有问题，但测试和开发也这么处理会不会就有问题了？

xiangrongzeng · Answer 1 · Mon Mar 02 2020 09:20:05 GMT+0800 (China Standard Time)

您理解的没错，无论训练还是测试，都只使用了实体的最后一个词。这篇文章的重点是关注实体重叠的问题，因此对多个词的实体进行了简化。真实情况中很多实体确实是包含多个词的，这也是这篇文章暂时不能解决的问题。

Tianwen Jiang · Answer 2 · Mon Mar 02 2020 10:45:42 GMT+0800 (China Standard Time)

感谢您的回复。那这么说来，那些针对实体多词问题来解决的模型，直接引用您论文的结果进行比较应当是不合理的，我就是因为看到近期的论文都直接引用您论文的58.7（F1值）进行比较，所以产生了这样的疑惑。

xiangrongzeng · Answer 3 · Mon Mar 02 2020 11:06:36 GMT+0800 (China Standard Time)

是的，我也关注到了这个问题，直接对比不是很合理。但是，如果用抽取完整实体的p,r,f来对比我论文中的p,r,f，并且还超过了的话，确实能说明那个方法比我的方法更好。因为抽取完整实体的难度显然是不会低于只抽取一个词的难度。当然，论文中最好还是能有个脚注来说明评价标准的差异。

更进一步来说，如果考虑完整的实体了，其实数据集的统计情况也是会发生改变的。只考虑最后一个字时，两个实体相同，但是考虑完整的实体时，两个实体就未必相同了。比如“michael jordan”和“air jordan”在只考虑最后一个字时被认为是相同的，但是考虑完整实体时是不同的。从这个角度来说，由于实际上数据集不同了，就不应该跟我这篇文章进行对比了，而是重新给出完整实体情况下的统计结果和实验结果。

Tianwen Jiang · Answer 4 · Mon Mar 02 2020 13:59:18 GMT+0800 (China Standard Time)

感谢您的解答。谢谢！