amutu / zhparser

zhparser is a PostgreSQL extension for full-text search of Chinese language

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

重复分词

frlzk opened this issue · comments

"健康生活,陪伴有我" 分词成了 "'健康':2 '健康生活':1 '有':5 '生活':3 '陪伴':4"
其中 "'健康" 被重复分词,造成使用ts_headline时文本重复 "健康生活健康生活,陪伴有我"

"健康生活,陪伴有我"分词了 "'健康':2 '健康生活':1 '有':5 '生活':3 '陪伴':4" 其中 "'健康" 被重新分词,构建使用ts_headline时代文本复现“健康生活健康生活,陪伴有我”

我也遇到类似的问题 但是找不到什么解决的办法 请问您有什么方案 或者想法么

http://www.xunsearch.com/scws/demo/v48.php 打开了最短词?
是的 例如 "宣传手册" 如果我不开最短词 我搜索宣传 或者 手册 是搜索不到的 只能打开最短词 但是这样造成的问题就是 如果我搜索 ”宣传手册“ ts_headline的标记结果为 宣传手册 宣传 手册 很苦恼我应该怎么取解决这个问题

zhparser 底层调用的scws库,通过对scws库的调查,目前没有什么好方法。