代码主要是对较大型语料(约14G的语料)进行分布式清洗和分句分词操作 代码包括: 如何批量读取文件夹及子文件夹下的数据 如何将批量整合文件夹及子文件下的数据 匹配中英文里可能出现的所有特殊字符 匹配各类网址及网页标签 匹配希腊字母汉语拼音及繁体字等 利用PyLTP模块进行分句 去掉文本空行函数 计时装饰器以及代码进度条 添加分布式分词处理类文件 欢迎star和fork