THUDM / AlignBench

大模型多维度中文对齐评测基准 (ACL 2024)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

参考答案出错颇多,像是AI生成,未经仔细校对的,试举一例:C Mixolydian音阶的第7个音是什么音?

choyakawa opened this issue · comments

{"question_id": 39, "category": "专业能力", "subcategory": "音乐", "question": "C Mixolydian音阶的第7个音是什么音?", "reference": "C Mixolydian音阶的第7个音是B音。\n"}

实际情况是: C - D - E - F - G - A - B♭ 所以第7个音是B♭。

参考资料:https://nicechord.com/post/mixolydian-locrian/

这只是我按顺序看找到的,实际出错率不低,建议进行严谨的复查。
看起来参考答案可能是AI生成的,并没有经过严谨的人工校验,或是人工校验不够仔细。

commented

@choyakawa 您好,

论文中我们提及了,由于任务极具挑战性,参考答案是由 AI 先生成,然后人工进行校验修改。
不过,在专业领域、数学计算和逻辑推理的等存在挑战性客观答案问题上,即使是多轮人工矫正也存在纰漏。感谢您的指出,我们公布数据集,也是为了收集大家的反馈并后续更新基准数据集答案和新的测试结果。

我观察到另外的issue提出数学、化学知识也不准确。并且存在偏向chatglm的问题#11 。如果什么阿猫阿狗都用AI生成一个对错都不知道的bench,来把各种大模型批判一番,这是对认真做事的人的不尊重。
请不要closed this as completed,您没有解决任何问题!
我希望您至少在修正了这_一个_错误之后,再关闭这个issue

事实上,如果您使用gpt-4-turbo的最新版本来生成,都可以避免这种低级错误

commented

@choyakawa 感谢您的修正和贡献!社区的发展需要像您一样热情的研究和贡献者,向您学习!您的贡献已经merge进数据集。

AlignBench 是我们一个阶段性的学术探索,我们无意对任何模型进行批判,测试结果也仅供社区参考。在 AlignBench 开发之时,我们主要能参考到的最优模型为 gpt4-0613,这的确也与 gpt-4-turbo 有一定差距,我们会根据工作安排持续修正答案和测试结果。

支持