请问榜单内模型的生成方式有详细的说明吗

Question

请问榜单内模型的生成方式有详细的说明吗

paperpplane opened this issue 8 months ago · comments

在论文中似乎没提到这些榜单内的模型的生成方式是怎么的，几个开源模型是用greedy方式还是do sample方式呢，具体设置参数是怎样的，几个通过API调用的模型用了怎么样的生成参数呢

leixy20 · Answer 1 · Tue Dec 12 2023 15:52:06 GMT+0800 (China Standard Time)

您好，感谢您对 AlignBench 工作的关注！关于评测参数的设置，由于我们观察到对于部分模型，采用 greedy 方式生成回答会导致回答质量的下降，特别是生成长度较长的问题。因此，我们对于生成长度较长的类别（综合问答、文本写作、角色扮演），采用 temperature=0.7 参数进行采样生成回答；对于生成长度较短的类别（基本任务、中文理解、逻辑推理、数学计算、专业能力），采用 temperature=0.1 参数进行采样生成回答。另外，在评价模型打分的阶段，使用 temperature=0 参数进行打分。

paperpplane · Answer 2 · Tue Dec 12 2023 15:58:43 GMT+0800 (China Standard Time)

但采样方式的话还有很多别的参数吧，除了temperature，比如topp topk这些，这些又是怎么设置的呢

leixy20 · Answer 3 · Tue Dec 12 2023 19:27:18 GMT+0800 (China Standard Time)

我们没有指定除了 temperature 其他参数的取值，均使用默认值。我们为了增强结果的稳定性而约束了 temperature 的取值，但是我们希望每个模型都处于自己最合适的参数配置情况，来评测实际部署和使用该模型的真实表现，所以没有统一其他参数。

paperpplane · Answer 4 · Wed Dec 13 2023 10:40:41 GMT+0800 (China Standard Time)

好的，多谢回复

Siberiamark · Answer 5 · Thu Dec 21 2023 17:05:17 GMT+0800 (China Standard Time)

模型打分阶段两个同样的csv 最后出来的分数有微小区别正常吗？我看上面说打分的时候CritiqueLLM 是做greedy code？