mozillazg / phrase-pinyin-data

词语拼音数据

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

“还钱”读音错误

zhuangh opened this issue · comments

Hi, Dear creator

@ ver. 0.22.0

pypinyin.pinyin('还钱')
[['hái'], ['qián']]

pypinyin.pinyin('还钱', heteronym=True)
[['hái', 'fú', 'huán'], ['qián']]

类似的此还有“还贷”等。

@zhuangh 感谢反馈!我有空的时候会更新一下。欢迎提 PR。

@mozillazg 应该怎么解决这个问题。根据词性是可以解决的。现在有这个机制吗?

#5
就不能根据词性了。

@zhuangh 现在没有这个机制,用的是很笨的词典匹配的办法。

还钱 这个需要先分词(可以安装 jieba 分词或手动指定为分词后的列表):

In [6]: pypinyin.pinyin('还钱了')
Out[6]: [['hái'], ['qián'], ['le']]

In [7]: pypinyin.pinyin(['还钱', '了'])
Out[7]: [['huán'], ['qián'], ['le']]

还贷 的话需要先更新词库然后再分词。

谢谢,这个可以通过pip install最新版本获得了吗?

@zhuangh 可以,升级到最新版本就可以了。

大谢!‘还贷’可以了。

我在看pinyin的时候,它会load /tmp/jieba.cache. 所以他不会自动断词?

这个是 jieba 这个第三方模块的动作,如果 jieba 的分词不正确的话你可能需要调教一下它:

https://github.com/fxsjy/jieba#%E8%BD%BD%E5%85%A5%E8%AF%8D%E5%85%B8