xjchenGit / ACLUE

Official github repo for ACLUE, an evaluation benchmark focused on ancient Chinese language comprehension

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

ACLUE---古汉语语言理解评估基准

简体中文 | English

📄 论文 • 🏆 排行榜 • 🤗 数据集

简介

Ancient Chinese Language Understanding Evaluation (ACLUE) 是一个面向古代汉语的评估基准,旨在帮助评估大型语言模型在古代汉语上的表现。基准由 15 个任务组成,涵盖了多个领域,句法、语义、推理和知识等。我们鼓励研究者使用 ACLUE 来测试和改进模型在古代汉语方面的能力。 ACLUE的任务取自人工挑选的公开资源和自动生成的古代汉语语料库,这些问题涵盖了从夏朝(公元前2070年)到明朝(公元1368年)的广泛时间范围。ACLUE在所有任务中都采用了多项选择题的形式。

排行榜 🏆

下表呈现了模型在 zero-shot 下的表现。如果您希望贡献您的模型结果,请与我们联系或直接提交拉取请求。

Zero-shot

模型 词汇 句法 语义 推理 知识 平均值
ChatGLM2-6B 34.00 38.00 39.90 36.53 38.85 37.34
ChatGPT 34.53 43.00 36.40 41.23 33.61 36.82
BLOOMZ-7B 34.40 32.20 43.70 30.19 37.31 35.34
ChatGLM-6B 32.80 36.60 30.50 34.59 32.81 33.23
Falcon-40B 30.13 32.60 34.30 33.65 30.78 32.00
Baichuan-7B 28.00 32.20 32.80 30.40 34.56 31.75
LLaMA-65B 28.33 33.00 29.60 29.10 27.56 28.76
MOSS-SFT-16B 28.00 24.00 27.50 27.42 24.34 26.29
Random 25.00 25.00 25.00 25.00 25.00 25.00

对于每一类任务具体所含有的任务如下:

词汇(T1:古文单字多义,T2:通假字,T3:古汉语命名体识别),句法(T4:古文断句),语义(T5:对联,T6:古诗词上下句预测),推理(T7:古诗词质量评估,T8:古文阅读理解,T9:古诗词曲鉴赏,T10:诗词情感分类),知识(T11:古汉语知识,T12:国学常识,T13:医古文,T14:古代文学知识,T15:古音学)。

数据格式

数据集中的每个问题都是一个多项选择题,有4个选项,只有一个选项是正确答案。数据以逗号分隔的.csv文件形式存在。数据可以在以下位置找到:data

这里是数据格式的示例:

“会当凌绝顶,一览众山小”是杜甫的名句,诗人登上了哪座山发出了这样的感慨?(),五台山,黄山,泰山,衡山,C

数据

我们根据每个主题在data/devdata/test目录中提供了开发和测试数据集。

提示

我们在src/utils目录中提供了预处理代码。

以下是添加直接回答提示后的数据示例:

    以下是关于{古诗词曲鉴赏}的单项选择题,请直接给出正确答案的选项。
    题目:《木兰诗--北朝民歌》唧唧复唧唧,木兰当户织。不闻机杼声,唯闻女叹息。问女何所思,问女何所忆。女亦无所思,女亦无所忆。昨夜见军帖,可汗大点兵,军书十二卷,卷卷有爷名。阿爷无大儿,木兰无长兄,愿为市鞍马,从此替爷征。东市买骏马,西市买鞍鞯,南市买辔头,北市买长鞭。旦辞爷娘去,暮宿黄河边,不闻爷娘唤女声,但闻黄河流水鸣溅溅。旦辞黄河去,暮至黑山头,不闻爷娘唤女声,但闻燕山胡骑鸣啾啾。万里赴戎机,关山度若飞。朔气传金柝,寒光照铁衣。将军百战死,壮士十年归。归来见天子,天子坐明堂。策勋十二转,赏赐百千强。可汗问所欲,木兰不用尚书郎,愿驰千里足,送儿还故乡。爷娘闻女来,出郭相扶将;阿姊闻妹来,当户理红妆;小弟闻姊来,磨刀霍霍向猪羊。开我东阁门,坐我西阁床。脱我战时袍,著我旧时裳。当窗理云鬓,对镜帖花黄。出门看火伴,火伴皆惊忙:同行十二年,不知木兰是女郎。雄兔脚扑朔,雌兔眼迷离;双兔傍地走,安能辨我是雄雌?下列对这首诗的理解和分析,不正确的一项是 ()
    A.  《木兰诗》是南北朝时期的一首长篇叙事民歌,风格刚健质朴。全诗以“木兰是女郎”来构思木兰的传奇故事,富有浪漫色彩。
    B.  “愿为市鞍马”的“市”是“市场”的意思,“万里赴戎机”的“戎机”是“战事”的意思。
    C.  木兰“不用尚书郎”而愿“还故乡”固然有对家乡的眷恋,但也有自己女儿身秘密的因素。
    D.  “朔气传金柝,寒光照铁衣”运用对偶手法,描写了木兰在边塞艰苦的军旅生活。
    答案是:B
    

    ... [其他例子] 

    题目:《虞美人》李煜。春花秋月何时了?往事知多少。小楼昨夜又东风,故国不堪回首月明中。雕栏玉砌应犹在,只是朱颜改。问君能有几多愁?恰似一江春水向东流。对《虞美人》的赏析,不恰当的一项是()
    A. 词作从眼前景物入手,生发联想和想像,追怀昔日帝王生活,描摹了一幅幅鲜活的画面,隐晦地表达出叛逆之情,惹恼了宋太宗,铸成了词人悲惨结局。
    B. 词作以实虚相间的手法来绘景、抒情、达意,忽而写眼前,忽而写想像。
    C. 《虞美人》乃李煜绝笔词
    D. 《虞美人》以其形式别致给人美感愉悦。
    答案是:

评估

我们使用的每个模型的评估代码位于src中,运行它们的代码列在script目录中。

引用

@inproceedings{zhang-li-2023-large,
    title = "Can Large Langauge Model Comprehend {A}ncient {C}hinese? A Preliminary Test on {ACLUE}",
    author = "Zhang, Yixuan  and Li, Haonan",
    booktitle = "Proceedings of the Ancient Language Processing Workshop",
    month = sep,
    year = "2023",
    address = "Varna, Bulgaria",
    publisher = "INCOMA Ltd., Shoumen, Bulgaria",
    url = "https://aclanthology.org/2023.alp-1.9",
    pages = "80--87"
}

许可证

MIT license

本项目采用 MIT License.

CC BY-NC-SA 4.0

ACLUE数据集采用 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

About

Official github repo for ACLUE, an evaluation benchmark focused on ancient Chinese language comprehension

License:MIT License


Languages

Language:Python 79.3%Language:Shell 20.7%