qjzhzw / Takin

A simple Python&Java toolkit for text extraction, cleaning and statistics.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Takin

A simple Python&Java toolkit for text extraction, cleaning and statistics.

To-do list

文本抽取

  • 从html、pdf、word、msg、ppt、excel中提取文本
  • 删除所有该格式的专属标签 (如删除html文本中的html标签)

文本清洗

  • 转化类
  • 大小写转化
  • 首字母大写
  • 简繁体转化
  • 全半角转化
  • 词干还原
  • 文本去重
  • 单词拼写纠错
  • 删除类
  • 删除所有标点符号
  • 删除多余空白格
  • 删除所有转义字符
  • 删除所有数字
  • 删除所有括号([]、{}、())及里面的内容
  • 删除停用词
  • 处理类
  • 分句/分段
  • 词频统计(词云)
  • 字数统计/句数统计/段数统计
  • 数据划分
  • 词向量转化
  • BPE

简单任务

  • 色情文本判断、识别
  • 情感分析
  • 关键词提取
  • 命名实体识别
  • 摘要生成
  • 事件抽取

函数格式

image

About

A simple Python&Java toolkit for text extraction, cleaning and statistics.


Languages

Language:Python 100.0%