gump1368 / machinery-segment

使用萃树进行机械分词

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

machinery-segment

使用trie-tree方法进行细粒度的机械分词

词库

机械分词需要整理自己的词库。这里我们使用n-gram方法。

  1. 收集数据
  2. 去除停用词
  3. 统计bigram, trigram, fourgram词频,设置词频阈值,保留高于阈值的词组。
  4. 借助分词工具(LTP)对词组进行分词,保留不可分的词组。
  5. 人工审核。对于词频较低的专有名词人工添加到词库。

分词

采用正向最大匹配算法。

  1. 采用trie-tree的方式,将词库的词构建词典树;
  2. 对输入句子l,正向截取max_length=4字符串s;
  3. 判断s是否在词典树中;
  4. 如果s在树中,作为分词结果保存;
  5. 如果s不在树中,如果s长度为1,作为分词结果保存;否则,s长度减一,返回步骤3;
  6. l=l[len(s):],返回2。
  7. 直到完成分词,输出分词结果。

About

使用萃树进行机械分词

License:Apache License 2.0


Languages

Language:Python 100.0%