haonan-li / CMMLU

CMMLU: Measuring massive multitask language understanding in Chinese

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

ChatGLM2-6b模型用eval精度比eval_chat低,正常吗?

ztxz16 opened this issue · comments

commented

现在chatglm的测试代码里只有eval_chat模式,我试着用eval测了一下,精度会降低1%左右,这个正常吗?

这个是正常的。这确实是两种不同评估方式,但是结果相差不会很大。
具体地说:

  • eval_chat 是让模型完整生成,然后用正则匹配找到模型的答案。
  • eval 是对比下一个生成token的概率,然后在A' B' C' D' 四个中选出概率最高的一个作为模型的选择。

现在没有一个公认的更好的方式。