BarryZM / dataProcessor

中英文语料数据清洗及分布式分句分词预处理工作

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

代码主要是对较大型语料(约14G的语料)进行分布式清洗和分句分词操作

代码包括:

如何批量读取文件夹及子文件夹下的数据
如何将批量整合文件夹及子文件下的数据
匹配中英文里可能出现的所有特殊字符
匹配各类网址及网页标签
匹配希腊字母汉语拼音及繁体字等
利用PyLTP模块进行分句
去掉文本空行函数
计时装饰器以及代码进度条
添加分布式分词处理类文件

欢迎star和fork

About

中英文语料数据清洗及分布式分句分词预处理工作


Languages

Language:Python 95.8%Language:Jupyter Notebook 4.2%