baidu / lac

百度NLP:分词,词性标注,命名实体识别,词重要性

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

加载自定义的词典,分词错误

SevenMpp opened this issue · comments

加载自定义词典,发现好像不起作用。
示例:
'胆石利通片山东步长制药'
分词结果:['胆石利通', '片', '山东步长制药'] 期望结果: ['胆石利通片', '山东步长制药']
即使加入”胆石利通片“ 也不能分出来,但如果未加自定义词典就可以正常分出 ['胆石利通片', '山东步长制药']。已确定自定义词典中不包含”片“这个单个字的词。不明白其中原因是什么!!!!!!!
加载方式如下:
lac = LAC(mode='seg')
lac.load_customization(customization_file='../dict/dict.txt', sep=None)
使用方式如下:
lac.run(str)
txt文件格式如下:
胆石利通片
布洛怪法师卡雷拉
晶水村
马蒂奥尼