测试自定义词典分词效果较差

Question

测试自定义词典分词效果较差

lxsyz opened this issue 3 years ago · comments

case示例：

from LAC import LAC
l = LAC(mode='seg')
l.add_word("广东省/n")
l.add_word("人/n")
l.add_word("民/n")
l.add_word("人民/n")
l.add_word("民政/n")
l.add_word("政府/n")

l.run("人民政府")
['人', '民', '政府']

期望得到 ['人民', '政府']
我观察在源码 parse_customization 中仅根据前缀树来修正，有办法引入概率或者其他方式来解决优化吗？

j · Answer 1 · Wed Jun 29 2022 16:17:13 GMT+0800 (China Standard Time)

去掉

l.add_word("人/n")
l.add_word("民/n")

这两行？