出现了特定文字不能to_tsvector分词的情况
liyibo1110 opened this issue · comments
liyibo1110 commented
[SQL]select to_tsvector('chinese'::regconfig, '自从用了液体,别的再也用不了了,太好用,毫无感觉,超级好用,大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱大爱')
[Err] ERROR: invalid byte sequence for encoding "UTF8": 0xe5 0xa4
这种连续2个字不断重复的内容,都会报这类错误,导致GIN索引不能建立。(chinese就是例子上的testzhcfg)
liyibo1110 commented
所有环境都是UTF-8,只有此类文字不可以,其他几千万条内容都可以。
liyibo1110 commented
用的是2016年下载的版本(看不到具体版本号),不知道后来新版是否修正了这类问题。
liyibo1110 commented
版本应该是0.1.4
zhangLianZhuang commented
用新版本看看吧。