CLUEbenchmark / SuperCLUE

SuperCLUE: 中文通用大模型综合性基准 | A Benchmark for Foundation Models in Chinese

Home Page:https://www.superclueai.com

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

这个评测的参考价值

liuyajun52 opened this issue · comments

作为一个评测,即不公布评测方法,也不公布评测数据,就直接扔上来一个表格,而且还在某厂商发布第二天发布,简直是Shame,根本无任何参考价值。毕竟任何人,都可以花几分钟就可以在做个表格扔到GitHub上。这种评测我只信双盲测试:

  1. 在所有用户的提示词中随机选取测试提示词集合,以此减少提示词集合的片面性
  2. 将同一个提示器集合喂给待测试AI,记录对话数据
  3. 将对话数据,随机发放给人类用户打分(用户不知道是哪个AI的回答)
  4. 使用统计学方法统计用户打分,给出评测报告

而且人类得分这么高,即使真的做了评测,也非常怀疑评测的公平性。从实际体验来看,至少GPT4的能力是在人类平均水平之上的。

安排