baidu / lac

百度NLP:分词,词性标注,命名实体识别,词重要性

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

测试自定义词典分词效果较差

lxsyz opened this issue · comments

case示例:

from LAC import LAC
l = LAC(mode='seg')
l.add_word("广东省/n")
l.add_word("人/n")
l.add_word("民/n")
l.add_word("人民/n")
l.add_word("民政/n")
l.add_word("政府/n")
l.run("人民政府")
['人', '民', '政府']

期望得到 ['人民', '政府']
我观察在源码 parse_customization 中仅根据前缀树来修正,有办法引入概率或者其他方式来解决优化吗?

commented

去掉

l.add_word("人/n")
l.add_word("民/n")

这两行?