A simple Python&Java toolkit for text extraction, cleaning and statistics.
- 从html、pdf、word、msg、ppt、excel中提取文本
- 删除所有该格式的专属标签 (如删除html文本中的html标签)
- 转化类
- 大小写转化
- 首字母大写
- 简繁体转化
- 全半角转化
- 词干还原
- 文本去重
- 单词拼写纠错
- 删除类
- 删除所有标点符号
- 删除多余空白格
- 删除所有转义字符
- 删除所有数字
- 删除所有括号([]、{}、())及里面的内容
- 删除停用词
- 处理类
- 分句/分段
- 词频统计(词云)
- 字数统计/句数统计/段数统计
- 数据划分
- 词向量转化
- BPE
- 色情文本判断、识别
- 情感分析
- 关键词提取
- 命名实体识别
- 摘要生成
- 事件抽取