haonan-li / CMMLU

CMMLU: Measuring massive multitask language understanding in Chinese

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

category以及总体average得分的计算逻辑

XinyuGuan01 opened this issue · comments

从榜单上看,CMMLU的得分存在三个层次:总体average的分(平均分),每个category的得分(比如人文学科),还有具体subject的得分(比如food_science.csv)。我想请问总体average的得分,和每个category的得分是怎么计算的呢?是不是按照下面的计算逻辑进行的?

计算逻辑:
先按样本维度计算了每个subject的acc,然后(1)category的得分=属于该category的所有subject的acc的平均值;(2)总体average的得分=所有subject的acc的平均值

对的,我们是macro average,也就是你提到的的计算方法。

对的,我们是macro average,也就是你提到的的计算方法。

好的,感谢