hkust-nlp / ceval

Official github repo for C-Eval, a Chinese evaluation suite for foundation models [NeurIPS 2023]

https://cevalbenchmark.com/

hkust-nlp/ceval Issues

gpt-4-1106-preview 有人测试过 test 的分数吗？
Updated 5 months ago3
HOW TO EVALUATE STEM???
Closed 7 months ago1
Leaderboard Update
Closed 7 months ago
C-Eval榜单从提交评测到榜单上能看到成绩大概需要多久？
Closed 7 months ago
Fail to send verification code. Please try again
Closed 7 months ago3
Failed to send verification code. Please try again.
Closed 7 months ago2
什么时候更新榜单呢？
Closed 8 months ago1
Leaderboard Update
Closed 8 months ago
Leaderboard Update
Closed 8 months ago1
public display
Closed 8 months ago1
模型是否真正掌握了相关知识而不是在猜答案？
Closed 9 months ago3
请问chatglm3-6b-base发布在哪里？
Closed 9 months ago1
请问下这个结论是根据哪些观察得来的？
Closed 9 months ago1
how to evaluate models trained by bloom serires base model?
Closed 9 months ago1
prompt行尾含有空格会发生什么？为什么不能有空格
Closed 9 months ago1
自然语言处理的相关任务属于知识型还是推理型任务呢？
Closed 9 months ago1
llama和其他模型评测时不同点
Closed 9 months ago1
关于确认CEval可以被hack之后的计划
Updated 9 months ago3
##
Closed 10 months ago
官方示例加载数据集报错
Updated 10 months ago8
为什么我用c-eavl测试chatglm2-6B 在zero-shot 下的分数很低？
Updated 10 months ago5
Atom-13B不是公开访问的模型
Closed 10 months ago2
看不懂怎么用。。eval_llama.py是给基于llama的模型用的吗，有很多报错不知道怎么解决
Updated 10 months ago3
You guys posted a hilarious Leaderboatd on your official website
Closed a year ago1
测试集中的部分错误。
Closed a year ago4
只能单选吗？可以多选吗？
Closed a year ago1
public display
Closed a year ago2
申请公开
Closed a year ago4
C-Eval 提交规则限制
Closed a year ago3
请问模型公开结果需要做哪些动作呀？
Closed a year ago1
chatglm2-6b在valid set上的zero-shot结果似乎有问题
Closed a year ago4
lm-evaluation-harness 是用test集测评的吗？
Closed a year ago1
官网无法登录，无法提交答案
Closed a year ago
prompt大于max_len时的处理方式？
Closed a year ago1
根据code/Readme.md中给出的示例尝试遇到问题
Closed a year ago2
art_studies_test.csv 中有题目错误
Closed a year ago2
middle_school_history_test.csv 中有题目错误
Closed a year ago2
Problematic question in test set
Closed a year ago1
提交结果问题
Closed a year ago7
结果提交的疑问
Closed a year ago2
ImportError: cannot import name 'AutoModelForCausalLM' from 'transformers'
Closed a year ago1
题目错误
Closed a year ago1
Download method1 download link incorrect
Closed a year ago1
chatgpt數據更新
Updated a year ago
请问hf格式的llama模型有公开的测试代码吗
Updated a year ago4
chatglm-6b验证集复现出来和论文有一点小差异。
Closed a year ago4
想参与annotation工作，以前是高中物理老师，现在香港读MPhil，求捞
Closed a year ago1
能支持下最新出的baichuan-7B模型吗
Closed a year ago1
Why chatglm2-6b score is higher than gpt-4 in your leaderboard？
Closed a year ago2
可以支持下Ziya-13B-v1.1嘛
Closed a year ago