amutu / zhparser

zhparser is a PostgreSQL extension for full-text search of Chinese language

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

出现了特定文字不能to_tsvector分词的情况

liyibo1110 opened this issue · comments

[SQL]select to_tsvector('chinese'::regconfig, '自从用了液体,别的再也用不了了,太好用,毫无感觉,超级好用,大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱')

[Err] ERROR: invalid byte sequence for encoding "UTF8": 0xe5 0xa4

这种连续2个字不断重复的内容,都会报这类错误,导致GIN索引不能建立。(chinese就是例子上的testzhcfg)

所有环境都是UTF-8,只有此类文字不可以,其他几千万条内容都可以。

用的是2016年下载的版本(看不到具体版本号),不知道后来新版是否修正了这类问题。

版本应该是0.1.4

用新版本看看吧。