我又来了,想问下分词单字的问题
FFFro opened this issue · comments
FFFro commented
我先在使用外挂词典 把 选集这个词的词频设为0,然后还是能分出来选集,怎样才能分出来选和集这两个单字呢,我把单字加到词典里面不生效
选集 0 选 1000 集 1000
zhangcheng commented
zhangcheng commented
都用jieba_search好些。jeiba_index召回可能有一些问题。
zhangcheng commented
如果你不想要选集
可以字典里删掉
FFFro commented
@sing1ee 看了下jieba本身词典里面就有单字,但是算出来选集比较好采用了选集,我最后改了下加载词典的方式,看到jieba本身字典树里面有一个disableSegment方法来屏蔽词典,所以指定了部分文件中的词调用这个方法, 相当于动态屏蔽词典,发现成功的屏蔽了‘选集’这个词,然后就分出来'选'和'集'这两个单字了,您看我这种方法可行吗
zhangcheng commented
@FFFro 可以,这个更加灵活。