SuperCLUE-Open

中文通用大模型开放域多轮测评基准 | A Multi-turn Open Domain Benchmark for Foundation Models in Chinese

SuperCLUE榜单(Open开放域多轮-Opt封闭域-LYB匿名对战)

SuperCLUE-Open：开放域多轮交互；SuperCLUE-Opt：三大能力，客观题；SuperCLUE-LYB：开放域众包匿名对战

Model	机构	Open开放域	Opt封闭域	LYB匿名对战	许可证
GPT-4	OpenAI	94.64	78.76	-	专有服务
Claude-instant-v1	Authropic	69.51	60.38	1215	专有服务
gpt-3.5-turbo	OpenAI	66.67	67.98	1202	专有服务
MiniMax-abab5	MiniMax	57.94	58.19	1250	专有服务
文心一言(v2.0.4)	百度	50.48	62.85	-	专有服务
讯飞星火(v1.5)	科大讯飞	48.87	59.8	-	专有服务
ChatGLM-130B	清华&智谱AI	42.46	51.53	1180	专有服务
ChatGLM2-6B	清华&智谱AI	36.50	48.56	1105	开源-商用申请
360智脑(4.0)	360	23.93	63.53	-	专有服务
IDEA-姜子牙-13B	深圳IDEA	22.04	48.67	1069	开源-非商用
MOSS-16B	复旦	21.14	38.56	1058	开源-商用申请
BELLE-13B	链家	15.61	50.65	967	开源-非商用
RWKV-world-7B	RWKV基金会	24.54	24.83	1034	开源-可商用
baichuan-7B(预训练模型)	百川智能	3.11	48.18	846	开源-商用申请
phoenix-7B	香港中文大学	-	43.60	1087	开源-可商用
Vicuna-13B	UC伯克利	-	29.15	1001	开源-非商用

LYB匿名对战数据，更新与2023-07-07 SuperCLUE是一个综合性基准，包括三个子基准：开放域多轮交互基准，SuperCLUE-Open；客观题形式的三大能力基准，SuperCLUE-Opt（基础能力、中文特性和专业能力）；众包匿名对战形式基准琅琊榜，SuperCLUE-LYB

SuperCLUE开放域多轮基准与封闭域基准相关性

从相关性分析中可以看到，SuperCLUE-open与SuperCLUE-opt具有较高的一致性（Pearson/Spearman相关性系数0.78--0.82）

SuperCLUE-Open开放域多轮测评基准

排名	Model	Score	Win	Loss	Tie	Win_rate(%)	Loss_rate(%)
🏅	gpt-4	94.64	264	24	160	58.93	5.36
🥈	Claude-instant-v1	69.51	127	161	240	24.05	30.49
🥉	gpt-3.5-turbo	66.67	176	176	176	33.33	33.33
4	MiniMax-abab5	57.94	82	212	210	16.27	42.06
5	文心一言(v2.0.4)	50.48	70	257	192	13.49	49.52
6	讯飞星火(v1.5)	48.87	81	249	157	16.63	51.13
7	ChatGLM-130B	42.46	56	290	158	11.11	57.54
8	ChatGLM2-6B	36.50	80	381	139	13.33	63.50
9	360智脑(4.0)	23.93	20	426	114	3.57	76.07
10	IDEA-姜子牙-13B	22.04	22	435	101	3.94	77.96
11	MOSS-16B	21.14	27	470	99	4.53	78.86
12	BELLE-13B	15.61	12	481	77	2.11	84.39
13	RWKV-world-7B	12.45	11	471	56	2.04	87.55
14	baichuan-7B	3.11	3	560	15	0.52	96.89

注：Score分数(即胜和率)，是模型的胜率加上平局率之和，即(win+tie)/(win+tie+loss)*100。

SuperCLUE-Open十大能力表

模型	胜和率	语义理解	闲聊	上下文对话	角色扮演	知识百科	生成创作	代码	逻辑推理	计算	安全
GPT-4	94.64	80.00	97.30	93.18	100.00	87.76	100.00	97.92	100.00	100.00	95.12
Claude-instant-v1	69.51	64.29	92.31	68.52	83.02	51.79	51.06	54.00	59.57	80.00	86.79
MinMax-abab5	57.94	55.36	78.00	59.62	85.42	57.41	69.23	37.25	34.78	32.20	77.55
文心一言(v2.0.4)	50.48	32.76	56.86	47.06	52.73	37.50	62.50	53.19	70.59	60.34	36.54
讯飞星火(v1.5)	48.87	45.61	25.49	60.00	83.67	29.63	71.79	37.74	39.58	57.14	50.00
ChatGLM-130B	42.46	44.64	53.06	50.00	51.92	39.29	52.50	17.07	37.25	42.37	34.00
ChatGLM2-6B	36.50	33.33	38.33	36.67	41.67	20.00	40.00	21.67	55.00	45.00	33.33
360智脑(4.0)	23.93	25.42	16.95	23.64	14.04	10.17	41.67	32.08	43.40	30.00	7.02
jiangziya-13B-v1.1	22.04	13.33	8.47	24.56	16.07	24.14	19.61	25.49	28.00	38.98	22.81
MOSS-16B	21.14	26.67	20.00	11.67	27.59	11.86	25.42	15.00	35.00	21.67	16.67
BELLE-13B	15.61	25.00	8.47	15.25	6.90	11.67	9.80	33.33	32.08	13.56	3.33
DLM	12.54	16.67	0.00	13.79	10.00	6.90	3.57	11.11	45.83	20.00	3.33
RWKV-world-7B	12.45	10.64	8.47	12.96	7.27	11.86	10.20	25.00	18.00	12.28	8.93
baichuan-7B（预训练模型）	3.11	1.89	0.00	0.00	0.00	1.72	1.69	3.33	18.33	3.33	0.00

注：胜和率，是模型的胜率加上平局率之和，即(win+tie)/(win+tie+loss)*100；语义理解：语义理解与抽取；表格较大，请往后拉

使用SuperCLUE-Open来评估中文大模型

动机

当前已经有一些评价中文大模型的基准，如C-Eval, MMCU，但是这些基准可能不太擅长评估大模型的人类偏好。传统的基准通常以封闭式问题形式进行测试，要求模型输出简要的结论（如多项选择），但是他们不能很好的反映大模型的典型使用场景（如生成、创作和提供想法）。当前也刚刚出现一些基准，如加州伯克利的MT-bench, 斯坦福大学的Alpaca-Eval，可以用于评估开放域问题，但是这些基准都是英文。中文的代表性专有服务和开源模型总体上无法进行有效评估。

为了缓解这个问题，我们发布了SuperCLUE-Open与SuperCLUE琅琊榜：

SuperCLUE-Open：是一个有挑战的多轮对话测试集，用于评估中文大模型对话式和遵循指令的能力。

SuperCLUE-LYB: SuperCLUE琅琊榜是一个众包匿名对战平台，用户问自己感兴趣的问题，并且投票他们喜欢的答案。

这两个基准设计的首要度量标准是人类的偏好。

什么是SuperCLUE-Open

SuperCLUE-Open是一个多轮开放域中文基准，包括600个高质量多轮问题。这里面的问题用于评估中文大模型对话能力和遵循指令的能力。里面包括一些常用的使用场景和一些挑战性的指令用于区分不同的模型。它考察模型的十大能力，包括：语义理解与抽取，闲聊，上下文对话，角色扮演，知识与百科，生成与创作，代码，逻辑与推理，计算，代码和安全。每个子能力六十道题目，每个题目包括两轮问题。

如何对中文大模型进行评估

针对中文大模型的人类偏好能力，可以通过人工进行评估，但是它一般时间周期比较长、并且成本高。国际上已经开始有一些自动化模型评估的方式。

比如加州伯克利的MT-bench, 斯坦福大学的Alpaca-Eval进行了比较系统的自动化评估。这里面存在对比模型时模型位置、生成答案的长度、模型对数学推理的评估能力有限的问题。借鉴上面两个工作的经验，我们也进行了针对性的处理，减少这些方面的问题。正如这两个工作提到的，GPT-4的评估可以实现和人类评估高达80-90%的一致性，这充分的说明了自动化评估的潜力。

我们的评估，通过使用超级模型作为评判官，使用一个待评估模型与一个基准模型进行对比，需要让模型选出哪个模型更好。答案可以是，A模型好，B模型好，或平局。评估的标准，是要求超级模型作为一个公证的评估者，评估模型的质量。回答的质量包括回答有针对性、准确和全面。

结果与分析

SuperCLUE-Open，有区别性的中文大模型基准

我们对14个模型，针对10项能力，进行了全面的评估。我们的基准可以清晰的区分模型在不同能力上的表现。特别是一些国际专有服务gpt-4, gpt-3.5, Claude，相比中开源模型ChatGM2-6B, MOSS-16B有明显的效果差异。

多轮对话能力

大型语言模型评估的可解释性

如何在SuperCLUE-Open上评估新的模型

1.SuperCLUE榜单大模型评测申请：https://wj.qq.com/s2/12305633/a73d/

（针对已公开发布、有代表性的模型服务或开源模型）

2.机构内部测评需求收集：https://wj.qq.com/s2/12307825/2ae0/

模型详情或需求描述中，请注明：“SuperCLUE-Open”

下一步

在报告SuperCLUE-Open与SuperCLUE-Opt一致性基础上，添加SuperCLUE-Open与人类测评的一致性分析
扩充测试集规模
加入更多中文大模型

链接

SuperCLUE-Opt：中文通用大模型综合性基准(基础能力、中文特性和专业能力）
SuperCLUE琅琊榜：中文通用大模型匿名对战评价基准

SuperCLUE-Open讨论与交流

致谢

本基准的成功运行离不开FastChat项目在源代码方面的大力支持，在此十分感谢Large Model Systems Organization(LMSYS ORG)和FastChat

引用

如果使用本项目的，请引用本项目，包括相关的论文或项目。

@misc{SuperCLUE,
  author = {Liang Xu and others from SuperCLUE team},
  title = {SuperCLUE: A Benchmark for Foundation Models in Chinese},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/CLUEbench/SuperCLUE}},
}

ouyangchucai / SuperCLUE-Open