CIEC-CTC 2021 (Chinese Text Correction)

数据及模型下载(2021.11.03更新)

下载内容	下载链接	访问密码
训练数据	讯飞云下载	girA
baseline模型	讯飞云下载	HJiB
验证集	https://github.com/destwang/CTCResources	-

2022.09.27

CAIL 2022文书校对比赛开始了！参赛时间2022.08.10-2022.11.15

比赛简介：法律文书作为司法机关及公民行使法律权利同时享受法律效益的载体，对文字内容的准确性要求极其严格。本任务旨在通过机器智能文本校对技术辅助司法人员自动检出并纠正法律文书中存在的错误。本任务涵盖了法律文书中存在的别字、冗余、缺失、乱序四种类型的错误。

本次比赛有大量法律文书数据和丰厚的奖金，欢迎大家报名参加！

2022.08.12

比赛Overview论文已发布，引用请参考：

@Article{wang2022ctc,
title={Overview of CTC 2021: Chinese Text Correction for Native Speakers},
author={Zhao, Honghong and Wang, Baoxin and Wu, Dayong and Che, Wanxiang and Chen, Zhigang and Wang, Shijin},
journal={arXiv preprint arXiv:2208.05681},
year={2022}
}

2022.03.15

CTC 2021中文文本纠错比赛正式开放公开评测，榜单详情见CTC 2021 Leaderboard，欢迎大家参与评测。

2021.09.01

目前还有几支队伍的成绩正在评测中，预计明后天将会公布最后的榜单。

2021.08.19

决赛成绩榜单在git上定时更新，请在排名列表查看。成绩将在每支队伍提交系统后两个工作日内进行更新，比赛结束后，最终成绩榜单将于人工智能协会比赛官网进行公布.

2021.08.12

对评测方法进行优化，优化连续冗余的评测，详情见更新脚本。

2021.08.10

更新评测脚本，使用方法见ctc_gector/README.md

2021.08.06

已通过邮件将第二阶段训练集、验证集数据发送给通过初赛的队伍，请参赛队伍查收。

2021.07.27

发布文本校对资源集合，供选手参考。

2021.07.08

更新Baseline模型代码，方便选手复线模型。使用方法见ctc_gector/README.md

2021.07.07

对选手常见问题进行总结归纳，详见FAQ。

2021.07.01

开放资格赛评测，发放资格赛评测数据及Baseline。

Baseline模型使用GECToR, 训练和推理代码见ctc_gector，模型将邮件发放给各参赛队伍。

2021.06.28

增加报名成功队伍信息，包括队伍名和codalab账号。

2021.06.25

训练数据已邮件发送给通过报名审核的队伍，如未收到邮件，请联系rdg_feiying@iflytek.com。 Baseline将于资格赛开始（7月1日）发布。

比赛当前排名(2021.09.03更新)

排名	队伍名	Codalab账号	机构	detect_f1	correct_f1	final_score
1	S&A	S&A	苏州大学&阿里巴巴达摩院	68	64.6	67.32
2	改的都队	qifanchao866	清华大学	62.405	57.205	61.365
3	znv_sentosa	zyang	深圳力维智联技术有限公司	55.035	43.055	52.639
4	C&L	jiahao12138	北京理工大学	51.126	48.649	50.631
5	MDatai	wufangzhou	上海蜜度信息技术有限公司-新浪微热点研究院	51.233	47.374	50.461
6	YCC	YCC2021	北京铀媒科技有限公司	49.804	42.745	48.392
7	NJU-NLP	yongchang_cao	南京大学自然语言处理实验室	49.02	39.651	47.146
8	四条人	AntPlusOne	蚂蚁金服	41.505	35.68	40.34
9	ai编程的小拓	liuyz	拓尔思信息技术股份有限公司	38.372	31.628	37.023
10	zybank	mzt_zybank	中原银行	37.863	33.217	36.934
11	华夏—龙盈战队	Guanyuhang	华夏银行股份有限公司、龙盈智达（北京）科技有限公司	28.646	21.875	27.292
12	yl_test	yuanhong	北京猿力未来科技有限公司	26.516	16.925	24.598
13	晓梦	zhaogang	人民网	20.997	14.173	19.632
14	only-one	zjjbupt	北邮	20.709	14.468	19.461
15	zndx纠错好难	ShanYouRan	中南大学	17.714	9.714	16.114
16	DAWN	redbird	MideaAIIC	6.326	3.128	5.686

比赛介绍

文本校对任务主要是针对文本中出现的错误进行检测和纠正，属于综合性的自然语言处理研究子方向，能够比较全面体现了自然语言处理的技术水平。过往文本校对相关评测使用的都是外国语言学习者撰写的文本，这些文本的错误大多数都是一些中文母语写作者不会犯的一些错误。对于政务公文、新闻出版等行业来说，一款针对以中文为母语的用户所使用的校对系统将会有更大的帮助。因此，本赛题主要选择互联网上中文母语写作者撰写的网络文本作为校对评测数据，从拼写错误、语法错误、语病错误等多个方面考察机器的认知智能能力。

比赛网站

https://competitions.codalab.org/competitions/32702

训练数据及Baseline系统

训练数据、Baseline模型已邮件发送给通过报名审核的队伍，如未收到邮件，请联系rdg_feiying@iflytek.com。

验证集及提交数据

验证集及数据提交格式可从比赛页面(codalab)获取，获取路径为：“Participate--File--Public Data”

其中，需要注意提交数据的格式：

若句子中没有错误，则直接返回"pid, -1", 如pid=0011-2, -1
若句子中有错误，则所有字段之间均以英文“,”连接，所有英文逗号的个数应为 4*n+1 个。如“pid=0011-1, 20, 别字, 轮, 论, 46, 别词, 标识, 表示,”
将预测结果命名为"dev.predict"，并直接压缩为zip文件，不要保留文件夹。可参考Public Data中的submit_sample.zip

比赛页面存在拥堵情况，数据提交后可能需要一段时间才能得到评测得分。

评测委员会

主席
陈志刚（认知智能国家重点实验室副主任，科大讯飞研究院副院长）

副主席
车万翔（哈尔滨工业大学社会计算与信息检索研究中心教授）
陈竹敏（山东大学信息检索实验室教授）
贺瑞芳（天津大学智能与计算学部教授）
伍大勇（科大讯飞北京研究院执行院长）

秘书长
王宝鑫（科大讯飞北京研究院研究主管）

FAQ

Q：队员还需要发送报名邮件吗？
A：每队发送一封报名邮件即可，进入决赛时我们将统一收集参赛队伍信息，届时组队信息将不可再变更。

Q: 是否需要提交训练数据集和系统代码？
A：不需要提交训练数据集，决赛时需要提交可运行的系统，其他阶段只需要提交预测文件。

Q：评测指标
A：detection score考虑错误位置和检出的错误词，correction score考虑错误位置、检出的错误词、纠正的正确词，错误类型不影响评测结果，两个分值均使用F1指标。

Q：是否可以使用自己训练的预训练模型？
A：可以使用。

Q：是否可以自己生成伪数据？
A：可以生成。

Q：是否可以自己标注？是否可以使用未公开数据？
A：为公平起见，不可以自己标注数据，也不可以使用未公开数据。

Q：是否可以使用GitHub上公开的代码修改？
A：可以使用公开代码进行修改。

Q：提供的伪数据生成方式？
A：提供的伪数据主要通过字音字形替换或随机替换，随机插入，随机删除生成；语义重复及句式杂糅使用了一些先验规则，这两类错误的占比不多。

Q：数据集在哪里下载？
A：获取数据集需要在比赛页面中报名，并发送队伍相关信息至主办方邮箱，待审核通过后，我们将以邮件形式发送训练数据下载链接。

Q：是否有讨论交流群？
A：没有创建。

Q：训练数据中频繁出现字符串67。
A：这个问题占比不大，对模型效果影响较小，在通过资格赛后提供的训练集中，我们将修复这个问题。

Q：分隔符使用英文逗号还是英文逗号加空格？如果更改的内容存在英文逗号怎么表示？
A：① 分隔符使用英文逗号或英文逗号加空格都可以。② 目前评测机中不包含带英文逗号的数据，所以理论上不存在带英文逗号的纠正，如果提交文件中存在英文逗号则无法通过提交。

Q：句子的起始索引是0还是1？
A：起始索引是0。

destwang / CTC2021