THUDM/AlignBench Issues
关于 Llama 3-70B 的结果
Updated最近评测很慢
Updated最近一些题目无法正确评测
Updated最近提交的评测为什么都error了?
Updated大佬们,这个评测模型会开源吗?
Closed 2请问extract_score error是什么原因,该怎么解决
Updated 5data_release.jsonl 里有一些数据有问题
Updated评测网站报错
Updated 8如何将测试结果公开至 LeaderBoard?
Updated为什么用GPT-4评测的时候结果会出现‘待定’
Updated 1网站无法登录
Updated有评测Qwen72B模型吗?
Closed 3为什么模型输出越长,分数越高?
Updated提交任务结果里的详细结果 judge 内容重复,导致分值计算错误
Closed 3chatglm3测试结果差异大
Updated 1网站上传测评 failed
Closed 1调用本地api进行评测有时会出现404错误
Closed 3模型打分阶段两个同样的csv 最后出来的分数有微小区别正常吗?
Closed 1请问榜单内模型的生成方式有详细的说明吗
Closed 5网站注册不上
Closed无法提交新结果
Closed 1有些题目的答案有待商榷
Closed 1请问,官网给的example.csv文件,打开乱码无法查看格式
Closed 3提交成功后下载的得分和详细结果都是空的文件
Closed 2