sino-crdc / Chinese_word_segmenter

中文分词器

主要用于中法创研中心的“文本情感分析器——多功能应用接口”

该中文分词器基于word分词器

用途特点

中文分词
可排除停止词
多种分词算法
支持分布式
词性标注
同义、反义、拼音标注
词语境计算
相关词
词频统计
文本相似度(10种算法)
判定句子是有意义的人话的可能性
支持应用统计语言模型(即隐含马尔可夫)(二元模型、三元模型)

部分文件功能

word分词器的API可打开 word-1.3 API.html查看
运行demo-word查看分词效果
运行evaluation对分词效果进行评估(评估结果位于target/evaluation目录)
通过计算词的语境来获得相关词
- 用word分词内置语料库：运行word分词项目根目录下的脚本 demo-word-vector-corpus
- 使用自己的文本内容：运行word分词项目根目录下的脚本 demo-word-vector-file
运行sentence-identify判定句子是有意义的人话的可能性
pom.xml: Project Object Model, 内含项目依赖版本
项目部署(Build)后，会出现data文件夹，内可放置分词器所需的外部数据源/目标; logs为项目运行的日志

编辑方法

将项目clone到自己的项目中
修改项目classpath，添加：
- target/word-1.3.jar;
- target/dependency/slf4j-api-1.6.4.jar;
- target/dependency/logback-classic-0.9.28.jar;
- target/dependency/logback-core-0.9.28.jar
修改项目的运行参数虚拟机选项: 在JVM Options添加-Xms1200m -Xmx1200m
修改src中的代码，对word分词器进行操作
需要对word分词器进行修改时候：target
- 一般不修改依赖，生成文件和maven的配置
- 方法一(不推荐): 反编译修改classes或者word-1.3.jar,再编译覆盖
- 方法二: 修改word-1.3-sources.jar然后编译覆盖上面的文件

详细

详见链接 ysc/word: Java分布式中文分词组件 - word分词

About

Apache License 2.0

Languages

Language:HTML 56.0%Language:CSS 22.6%Language:Shell 7.7%Language:Java 7.2%Language:Batchfile 6.6%