THUDM / AlignBench

大模型多维度中文对齐评测基准 (ACL 2024)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

提交任务结果里的详细结果 judge 内容重复,导致分值计算错误

HalcyonLiang opened this issue · comments

另外,没有模型judge结果的貌似default给了1分,这个最终是否计算到了平均成绩里?

+1,这是似乎和csv格式有关,建议作者能检查下后台实现,或者换json格式读取结果

commented

@HalcyonLiang @NoneWait 你好,

经过排查这个问题是偶发性的,当时由于API上游不稳定,导致大量评测结果为空,默认返回1分,后续未遇到。现在已
1.修改并发,
2.设立报警机制,超过10个读不出分数的结果就报错

欢迎重新提交,如果有问题继续咨询。