sing1ee / elasticsearch-jieba-plugin

jieba analysis plugin for elasticsearch 7.0.0, 6.4.0, 6.0.0, 5.4.0,5.3.0, 5.2.2, 5.2.1, 5.2, 5.1.2, 5.1.1

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

我又来了,想问下分词单字的问题

FFFro opened this issue · comments

commented

我先在使用外挂词典 把 选集这个词的词频设为0,然后还是能分出来选集,怎样才能分出来选和集这两个单字呢,我把单字加到词典里面不生效
选集 0 选 1000 集 1000

@FFFro 只需要增加:

选 1000 
集 1000

注意分词选择jeiba_search

commented

@sing1ee 我们现在索引和搜索都是用的jiebaindex,目前只能用search解决么

都用jieba_search好些。jeiba_index召回可能有一些问题。

commented

@sing1ee 好的感谢

如果你不想要选集
可以字典里删掉

commented

@sing1ee 看了下jieba本身词典里面就有单字,但是算出来选集比较好采用了选集,我最后改了下加载词典的方式,看到jieba本身字典树里面有一个disableSegment方法来屏蔽词典,所以指定了部分文件中的词调用这个方法, 相当于动态屏蔽词典,发现成功的屏蔽了‘选集’这个词,然后就分出来'选'和'集'这两个单字了,您看我这种方法可行吗

@FFFro 可以,这个更加灵活。