提供选项设置只做简单的分词,不做关联分词;及繁简自动转换;姓名标识
hotoo opened this issue · comments
不关联多个词语
我想算法中应该是有根据词汇的相关度等因素将词语做了关联,比如:
熊出没:熊出没
狗出没:狗, 出没
惊天地泣鬼神:惊天地泣鬼神
等等,这些词汇的关联,对于做拼音转换来说非常不利,极大的增加了词典量。
汉语多音字总共 3千多个,分词词典里的词汇,出现多音字的有 7万多,在汉语词典里能查到的有 4万多,其中还包括繁体字的部分。
繁体字部分自动转换
繁体和简体的词汇分词应该不会很大,大部分情况可以使用一种词库(例如简体词库),分词时可以先转成简体字,分词后再转换成原字(可以做一些是否需要转换的判断)。
这样词库量会小很多。如果确实有不同的地方,可以通过特殊词典和算法进行修正。
我找到一个繁简转换的模块: https://github.com/RobinQu/simplebig 供参考。
结果集给出类型标识
有些姓氏是多音字,读音与常字不同,如果分词算法是以姓名进行分词的部分,最好能标识这是姓名,这样转换拼音的时候可以使用更准确的拼音。
1、目前可以识别一些常见的名字,比如“李小龙”会被识别为一个词,并且会标注该词为姓名的。详情参考这里:https://github.com/leizongmin/node-segment/blob/master/lib/POSTAG.js#L9
2、繁体字转换问题:如何判断输入的文字是否为繁体字?