model performance measure的问题

Question

model performance measure的问题

KevinZ-01 opened this issue a month ago · comments

Kaiwen Zhou commented a month ago

您好，请问paper里面mean rank and best rank这里参与ranking的是哪些模型呢？是public的在该数据集上的所有模型吗？谢谢！

Kaiwen Zhou commented a month ago

Thanks!

Siyuan Guo · Answer 1 · Thu Jul 18 2024 09:05:07 GMT+0800 (China Standard Time)

你好，参与ranking的是全部baseline产生的5个模型。例如，在development stage，参与ranking的有ResearchAgent w/ GPT-3.5, ResearchAgent w/ GPT-4, DS-Agent w/ GPT-3.5, DS-Agent w/ GPT-4，共计4个agent*5次重复实验=20个模型进行排名。