jeinlee1991/chinese-llm-benchmark Issues
评测一下 deepseek v2
Updated评测数据无法吐槽
Updated评测数据太少了吧,这能说明问题?
Updated 1缺少重要的claude系列,申请加入相关测评
Updated 210b以下开源排名榜单不靠谱
Updated建议增加1B模型测试
Closed 1能否加入Function Call(工具调用)能力指标评测
Updated 1请问为什么没有bing?
Closed 1eval中是所有评测数据吗
Closed 1通义千问的评测时间?
Closed很棒的测评,请问项目主测试数据可以转载吗
Closed 1可以评测一下千问-7B模型吗
Closed强烈建议加入moonshot的Kimi chat!!!
Closed 2文心一言的新版本复测
Closed 1为什么千问1.5-14B-chat分这么高,比72b还高?
Closed 4讯飞星火推出3.5版本
Closed 1可否将kimi chat加入榜单
Closed 1能否加入qianwen1.5-32B的评测
Closed 2讯飞星火13B开源模型测评
Updated可否增加claude3商用模型的评测
Updatedupdate new model
Updated希望能够增加RWKV模型进行评测
Updated 2我Claude呢?
UpdatedHow should I cite this work?
Updated很棒的工作, 请问评分标准是怎么样的呢?是如何给这些模型打分的?
Updated 6如果有各个模型的部署硬件要求对比就好了
Updated如何提交自己的模型进行评测?
Updated 1提供结果复现代码
Updated