python2.7
regex、bs4、opencc_python_reimplemented
raw_data/
SIGHAN-2013 shared task on CSC: LINK
SIGHAN-2014 shared task on CSC: LINK
SIGHAN-2015 shared task on CSC: LINK
注意:
- 原始训练数据中存在一定比例的标注错误,已经进行手工纠正,因此与原始下载数据(.zip文件)存在不同。
运行程序
python generate_pair_data.py
pair_data/traditional/
pair_data/simplified/
使用opencc对繁体进行转换得到
注意:
-
sighan纠错任务中正确句子和错误句子的长度是一致的。
-
存在正确/错误繁体字对应同一个简体字的情况,转换成简体后有的文本错误消失了,因此简体版本的文本错误数量少于繁体版本的。