messense / jieba-rs

The Jieba Chinese Word Segmentation Implemented in Rust

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

注音符号的问题

failable opened this issue · comments

这句话:

字母c ĉ ĝ ĥ ĵ ŝ和复元音中的ŭ分别读作ts tʃ dʒ x ʒ ʃ u̯。以捷克式IPA转写应该写成ts,tš,dž,x,ž,š,w。

切分成:

字母 c ĉ ĝ ĥ ĵ ŝ 和 复 元音 中 的 ŭ 分别 读作 ts t ʃ d ʒ x ʒ ʃ u ̯ 。 以 捷克 式 IPA 转写 应该 写成 ts , t š , d ž , x , ž , š , w 。

请问能否保持而不切分成u ̯

Duplicate of #24

为什么有些字符会切了,有些字符不会,只是刚好模型是这样的结果吗?

为什么有些字符会切了,有些字符不会,只是刚好模型是这样的结果吗?

估计是组合字符的原因