sing1ee / elasticsearch-jieba-plugin

jieba analysis plugin for elasticsearch 7.0.0, 6.4.0, 6.0.0, 5.4.0,5.3.0, 5.2.2, 5.2.1, 5.2, 5.1.2, 5.1.1

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

词典里不支持单个字的分词么

yren opened this issue · comments

比如: 在 user.dict 加入一条单字分词
"药 3"

对 text "药品" 的分词测试,只有一个 token "药品"。

希望得到两个, token "药" 和 token “药品”

请问可以在字典里加入单字,对这个单字分词么

是既有单字,也有词的分词么?

是的,有单字,也有词的分词。比如:

药 3
药品 3

这种没有对 "药" 分词。

另外,如果自定义词典里的词有包含关系,分词处理似乎也有问题。比如:

反渗透膜 3
反渗透膜元件 3

对于文本。"实验用反渗透膜元件", 期待的分词后有 "反渗透膜", "反渗透膜元件" 两个 token, 但实际上只有 "反渗透膜元件" 一个 token

@yren 试试修改分词的模式,采用index的方式,不要采用search的方式

嗯,使用的是 index 方式 (jieba_index) , 但还是存在上述问题

@yren jieba的python版本,有试验过么?或者jieba-analysis的版本,试一下

我有时间试一下。 这些是 jieba ES plugin 的 dependency 是吧

@yren 主要是 jieba-analysis,python版本的jieba的java实现。

这个问题一直都存在