一个中文自然语言处理工具集
基于字标注的分词模型
一个广为流传的baseline
基于词的序列切分标注联合模型
可用于简单的分词,也可以用于词性标注,或者实体识别。
正文提取
提取新闻标题、关键词、正文的python2
脚本。基于 python-readability
未来计划
- 关键词提取
- 实体识别模型
- 文本去重
相关项目
- 正文提取
- 存储、索引
- weed-fs
- MongoDB
- elasticsearch
一个中文自然语言处理工具集
一个广为流传的baseline
可用于简单的分词,也可以用于词性标注,或者实体识别。
提取新闻标题、关键词、正文的python2
脚本。基于 python-readability
一个中文自然语言处理工具集