firedraky / sighan_raw

SIGHAN中文纠错数据集及转换后格式

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Sighan2013/2014/2015原始纠错数据提取

依赖

python2.7

regex、bs4、opencc_python_reimplemented

原始数据

raw_data/

SIGHAN-2013 shared task on CSC: LINK

SIGHAN-2014 shared task on CSC: LINK

SIGHAN-2015 shared task on CSC: LINK

注意:

  • 原始训练数据中存在一定比例的标注错误,已经进行手工纠正,因此与原始下载数据(.zip文件)存在不同。

提取数据

运行程序

python generate_pair_data.py

繁体

pair_data/traditional/

简体

pair_data/simplified/

使用opencc对繁体进行转换得到

注意:

  • sighan纠错任务中正确句子和错误句子的长度是一致的。

  • 存在正确/错误繁体字对应同一个简体字的情况,转换成简体后有的文本错误消失了,因此简体版本的文本错误数量少于繁体版本的。

About

SIGHAN中文纠错数据集及转换后格式


Languages

Language:Python 100.0%