weblio爬取的中日翻译语句对,方便使用按50音做了整合,仅对齐未清洗未分词
文件格式:*.zh 和 *.ja,可直接读取
processed.zip: 过筛
un.zip: 未过筛
CJKC.json:中日汉字对照表
ja-zhcleaner.py (加入multiprocessing并行处理库)
--file_type, default="single") #双语文件模式/两个单文件模式
--file_path, default=None) #双语文件路径或单文件的日语文件路径
--file_path2, default=None) #单文件的中文文件路径
--output_1, default='./filted.jazh') #输出文件路径1(筛选过)
--output_2, default='./unclean.jazh') #输出文件路径2(被筛选掉的)
--pool", default=8) #并行池数
--mappingtable_path, default="./kanji_mapping_table.txt") #汉字对照表路径
--commonhanzi_path, default="./3500common_hanzi_table.txt") #3500常用汉字(中文)表
--sn_ratio, default=0.5) #数字符号字母量筛选比例
--bl_ratio, default=0.5) #中日文长度筛选比例
--ratio_zh, default=0.1) #共通汉字占中文长度筛选比例
--ratio_jp, default=0.3) #共通汉字占日语长度筛选比例
--ratio_gap, default=0.25) #实词占比筛选比例
筛选方法:
常用汉字筛选 /
数字、字母、符号占比筛选 /
中文里混了日语筛选 /
中日语料长度比筛选 /
#极其特殊符号筛选 /
生僻字筛选 /
相同连续子串筛选(长度大于一个成语(4),不是日期 且不是大部分为非中文名词) /
简易1-gram常用汉字转换后重叠比例筛选 /
实词占比差筛选(jieba:中文分词, nagisa: 日语分词)