THUDM / AlignBench

大模型多维度中文对齐评测基准 (ACL 2024)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

请问榜单内模型的生成方式有详细的说明吗

paperpplane opened this issue · comments

在论文中似乎没提到这些榜单内的模型的生成方式是怎么的,几个开源模型是用greedy方式还是do sample方式呢,具体设置参数是怎样的,几个通过API调用的模型用了怎么样的生成参数呢

您好,感谢您对 AlignBench 工作的关注!关于评测参数的设置,由于我们观察到对于部分模型,采用 greedy 方式生成回答会导致回答质量的下降,特别是生成长度较长的问题。因此,我们对于生成长度较长的类别(综合问答、文本写作、角色扮演),采用 temperature=0.7 参数进行采样生成回答;对于生成长度较短的类别(基本任务、中文理解、逻辑推理、数学计算、专业能力),采用 temperature=0.1 参数进行采样生成回答。另外,在评价模型打分的阶段,使用 temperature=0 参数进行打分。

但采样方式的话还有很多别的参数吧,除了temperature,比如topp topk这些,这些又是怎么设置的呢

我们没有指定除了 temperature 其他参数的取值,均使用默认值。我们为了增强结果的稳定性而约束了 temperature 的取值,但是我们希望每个模型都处于自己最合适的参数配置情况,来评测实际部署和使用该模型的真实表现,所以没有统一其他参数。

好的,多谢回复

模型打分阶段两个同样的csv 最后出来的分数有微小区别正常吗? 我看上面说打分的时候CritiqueLLM 是做greedy code?