使用trie-tree方法进行细粒度的机械分词
机械分词需要整理自己的词库。这里我们使用n-gram方法。
- 收集数据
- 去除停用词
- 统计bigram, trigram, fourgram词频,设置词频阈值,保留高于阈值的词组。
- 借助分词工具(LTP)对词组进行分词,保留不可分的词组。
- 人工审核。对于词频较低的专有名词人工添加到词库。
采用正向最大匹配算法。
- 采用trie-tree的方式,将词库的词构建词典树;
- 对输入句子l,正向截取max_length=4字符串s;
- 判断s是否在词典树中;
- 如果s在树中,作为分词结果保存;
- 如果s不在树中,如果s长度为1,作为分词结果保存;否则,s长度减一,返回步骤3;
l=l[len(s):]
,返回2。- 直到完成分词,输出分词结果。