提供选项设置只做简单的分词，不做关联分词；及繁简自动转换；姓名标识

Question

hotoo opened this issue 12 years ago · comments

不关联多个词语

我想算法中应该是有根据词汇的相关度等因素将词语做了关联，比如：

熊出没：熊出没
狗出没：狗, 出没
惊天地泣鬼神：惊天地泣鬼神

等等，这些词汇的关联，对于做拼音转换来说非常不利，极大的增加了词典量。
汉语多音字总共 3千多个，分词词典里的词汇，出现多音字的有 7万多，在汉语词典里能查到的有 4万多，其中还包括繁体字的部分。

繁体和简体的词汇分词应该不会很大，大部分情况可以使用一种词库（例如简体词库），分词时可以先转成简体字，分词后再转换成原字（可以做一些是否需要转换的判断）。

这样词库量会小很多。如果确实有不同的地方，可以通过特殊词典和算法进行修正。

我找到一个繁简转换的模块： https://github.com/RobinQu/simplebig 供参考。

有些姓氏是多音字，读音与常字不同，如果分词算法是以姓名进行分词的部分，最好能标识这是姓名，这样转换拼音的时候可以使用更准确的拼音。

LEI Zongmin · Answer 1 · Tue Feb 19 2013 13:25:38 GMT+0800 (China Standard Time)

1、目前可以识别一些常见的名字，比如“李小龙”会被识别为一个词，并且会标注该词为姓名的。详情参考这里：https://github.com/leizongmin/node-segment/blob/master/lib/POSTAG.js#L9

2、繁体字转换问题：如何判断输入的文字是否为繁体字？