haonan-li / CMMLU

CMMLU: Measuring massive multitask language understanding in Chinese

haonan-li/CMMLU Issues

关于测评生成的结果
Updated a month ago1
希望增加对于Qwen2的测试
Updated a month ago
希望增加对于Grok-1的测试
Closed 3 months ago1
数据集怎么回事
Closed 4 months ago1
请问ChatGLM3有测试结果吗
Closed 5 months ago1
支持yi-34b-chat吗？
Closed 7 months ago1
如果用评测集进行训练，是不是可以拿满分，如何防止作弊？
Closed 8 months ago1
外部API接口的输入/输出格式和邮箱地址
Closed 9 months ago6
每个 csv 文件具体属于哪个 category
Closed 9 months ago1
category以及总体average得分的计算逻辑
Closed 9 months ago2
cmmlu测试集结果更新
Closed a year ago3
SyntaxError: unmatched ')'
Closed 10 months ago1
容易卡主，咋回事
Closed 10 months ago3
请问一下，如果想提交模型结果，更新到榜单上，需要怎么操作？
Closed a year ago1
CMMLU测试
Closed a year ago3
支持llama2吗？
Closed a year ago1
请问“STEM|人文学科|社会科学|其他|**特定主题”这几个类别和 data/test/ 下的67个文件对应关系是什么
Closed a year ago1
请问一下，MILM的测试是如何进行的？
Closed a year ago1
Support Qwen-7b
Closed a year ago2
刚开始学习ai，想问问文档的 Five-shot 是 few-shot 吗？
Closed a year ago1
ChatGLM2-6b模型用eval精度比eval_chat低，正常吗？
Closed a year ago1
提示-评估中的链接失效
Closed a year ago1
AttributeError: 'NoneType' object has no attribute 'replace'
Closed a year ago3
Baichuan-13B-Chat
Closed a year ago1
[BUG maybe in few-shot setting]计算模型选择的答案时，对于很多模型代码里实际上比较的是['_A', '_B', '_C', '_D']这四个token的概率，而非['A', 'B', 'C', 'D']的概率
Closed a year ago1
[Feature] Support CMMLU in OpenCompass
Closed a year ago1
ChatGLM2-6B使用默认参数跑，相比于ChatGLM-6B速度慢5倍以上，不知道是什么原因
Closed a year ago3
get_results出来的分数有一定随机性
Closed a year ago2
【数据错误】huggingface 上的数据加载有一个错误
Closed a year ago1
【baichuan-13】可否对比下百川13B的模型，近日发布的
Closed a year ago1
logo扇面上没有“world history”世界历史这一主题
Closed a year ago1
categories.py中name_en2zh、subcategories不是字典升序的
Closed a year ago1
是否考虑使用四个选项的概率大小来评估模型？
Closed a year ago2