leizongmin / node-segment

基于Node.js的中文分词模块

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

提供选项设置只做简单的分词,不做关联分词;及繁简自动转换;姓名标识

hotoo opened this issue · comments

不关联多个词语

我想算法中应该是有根据词汇的相关度等因素将词语做了关联,比如:

熊出没:熊出没
狗出没:狗, 出没
惊天地泣鬼神:惊天地泣鬼神

等等,这些词汇的关联,对于做拼音转换来说非常不利,极大的增加了词典量。
汉语多音字总共 3千多个,分词词典里的词汇,出现多音字的有 7万多,在汉语词典里能查到的有 4万多,其中还包括繁体字的部分。

繁体字部分自动转换

繁体和简体的词汇分词应该不会很大,大部分情况可以使用一种词库(例如简体词库),分词时可以先转成简体字,分词后再转换成原字(可以做一些是否需要转换的判断)。

这样词库量会小很多。如果确实有不同的地方,可以通过特殊词典和算法进行修正。

我找到一个繁简转换的模块: https://github.com/RobinQu/simplebig 供参考。

结果集给出类型标识

有些姓氏是多音字,读音与常字不同,如果分词算法是以姓名进行分词的部分,最好能标识这是姓名,这样转换拼音的时候可以使用更准确的拼音。

1、目前可以识别一些常见的名字,比如“李小龙”会被识别为一个词,并且会标注该词为姓名的。详情参考这里:https://github.com/leizongmin/node-segment/blob/master/lib/POSTAG.js#L9

2、繁体字转换问题:如何判断输入的文字是否为繁体字?