这个评测的参考价值

Question

liuyajun52 opened this issue a year ago · comments

作为一个评测，即不公布评测方法，也不公布评测数据，就直接扔上来一个表格，而且还在某厂商发布第二天发布，简直是Shame，根本无任何参考价值。毕竟任何人，都可以花几分钟就可以在做个表格扔到GitHub上。这种评测我只信双盲测试：

安排

Sonic Young · Answer 1 · Fri May 12 2023 15:08:23 GMT+0800 (China Standard Time)

而且人类得分这么高，即使真的做了评测，也非常怀疑评测的公平性。从实际体验来看，至少GPT4的能力是在人类平均水平之上的。