thunlp / HMEAE

Source code for EMNLP-IJCNLP 2019 paper "HMEAE: Hierarchical Modular Event Argument Extraction".

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Questions about f_score

txy960427 opened this issue · comments

非常感谢您的分享,关于f_score这里我有点疑惑,恳请您的解答~
我想通过举例来说明一下,假设有这些真实的标签,第一个数字为事件类型标签,第二个为角色标签如下:
(2,1),(2,3),(0,0),(5,3),
预测结果为:
(2,1),(2,4),(0,5),(5,0)
按照代码中的计算方式,我得到TP=1,FN=3, FP=1,这样R=1/4,P=1/2

我之前复现这方面的论文的计算方式为,R=1/3 即真实的需要预测的有(2,1),(2,3),(5,3),所以Positive样本=3,R=1/3;P=1/3,预测出了3个标签,只对了一个,所以P为1/3。

我想的是测试集中的正样本似乎应该是固定数量的,所以positive样本数量应该不变,即fn+tp应该固定。

这样计算似乎与您的有些不同,请问一下是我哪里计算错了吗?希望得到您的答复,谢谢!

从您与其他提问者的回答中看到了补充,您在计算指标的时候是只对预测事件类型非None的进行了计算,这样我上述的计算中应该改为TP=1,FP=1 FN=2,这样R=1/3,P=1/2 。

如果我理解的没错,您使用的指标是针对预测出事件类型非None的trigger-argument对,这样确实结果会比较高,我在复现中也使用过这样的计算方式,但是我还是觉得不太合理,一方面我认为测试集中的正样本数量是固定的,应当做个整体的评判,第二方面您呈现的DMCNN的结果和论文相比,似乎是Recall比较高。

还是感谢您的耐心解答和分享~

我们的考虑是这样。一方面EAE是ED的后续任务,只有给出非None的trigger才能进行EAE,因此单独评测这一阶段的表现也是合理的。另一方面我们发现在之前一些经典工作的复现中同样只有采用这种方式才能得到合理的结果,出于与之前方法公平比较的考虑我们保持了这种方法。如果您有不同的发现,欢迎再交流~