arata-1972 / Chinese-Japanese-parallel-corpus

更新中,某网站爬取的中日翻译语句对,方便使用按50音做了整合,仅对齐未清洗未分词

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Chinese-Japanese-parallel-corpus

weblio爬取的中日翻译语句对,方便使用按50音做了整合,仅对齐未清洗未分词


文件格式:*.zh 和 *.ja,可直接读取

processed.zip: 过筛

un.zip: 未过筛

CJKC.json:中日汉字对照表

ja-zhcleaner.py (加入multiprocessing并行处理库)

 --file_type, default="single") #双语文件模式/两个单文件模式

 --file_path, default=None) #双语文件路径或单文件的日语文件路径

 --file_path2, default=None) #单文件的中文文件路径

 --output_1, default='./filted.jazh') #输出文件路径1(筛选过)

 --output_2, default='./unclean.jazh') #输出文件路径2(被筛选掉的)

 --pool", default=8) #并行池数

 --mappingtable_path, default="./kanji_mapping_table.txt") #汉字对照表路径

 --commonhanzi_path, default="./3500common_hanzi_table.txt") #3500常用汉字(中文)表

 --sn_ratio, default=0.5) #数字符号字母量筛选比例

 --bl_ratio, default=0.5) #中日文长度筛选比例

 --ratio_zh, default=0.1) #共通汉字占中文长度筛选比例

 --ratio_jp, default=0.3) #共通汉字占日语长度筛选比例

 --ratio_gap, default=0.25) #实词占比筛选比例


筛选方法:

常用汉字筛选 /

数字、字母、符号占比筛选 /

中文里混了日语筛选 /

中日语料长度比筛选 /

#极其特殊符号筛选 /

生僻字筛选 /

相同连续子串筛选(长度大于一个成语(4),不是日期 且不是大部分为非中文名词) /

简易1-gram常用汉字转换后重叠比例筛选 /

实词占比差筛选(jieba:中文分词, nagisa: 日语分词)

About

更新中,某网站爬取的中日翻译语句对,方便使用按50音做了整合,仅对齐未清洗未分词


Languages

Language:Python 100.0%