zhangkaixu / tenseg

一个中文自然语言处理工具集

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

一个中文自然语言处理工具集

基于字标注的分词模型

一个广为流传的baseline

基于词的序列切分标注联合模型

可用于简单的分词,也可以用于词性标注,或者实体识别。

正文提取

提取新闻标题、关键词、正文的python2脚本。基于 python-readability

未来计划

  • 关键词提取
  • 实体识别模型
  • 文本去重

相关项目

About

一个中文自然语言处理工具集


Languages

Language:C++ 91.9%Language:Python 6.8%Language:CMake 1.3%