messense / jieba-rs

The Jieba Chinese Word Segmentation Implemented in Rust

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

请问如何让自定义词典支持标点符号或者空格

xkungfu opened this issue · comments

如:
example-word
example word
中文 空格
中文-符号

add_word 方法应该都支持,目前字典文件是用空格来分割的,标点符号应该没有问题,空格暂时不支持,空格的需求是?

比如英文品牌:
Louis Vuitton
Calvin Klein Collection
Dolce&Gabbana

中文可能没有空格需求,暂时还没碰上。英文确实有大量的空格词汇。

另外测试标点符号不能匹配。比如:

$jieba->addWord('田-女士', 42, 'n');
dump($jieba->cut('市民田-女士急匆匆来到上海市公安局松江分局方松派出所求助', false));

分词结果没有将“田-女士”分离出来。

- 的问题和 jieba python 的这个问题 fix 一致:fxsjy/jieba@36a2730

Fixed in 7a520c1

了解。也许空格问题也可以借此解决,在分词前将文章所有空格替换为“-”。
感谢回复。

Louis Vuitton 这种应该已经不适合只用分词来处理了,更像是实体识别的需求。