使用依存句法分析抽取非结构化数据中的事实三元组(实体,关系,实体)
- 项目需要安装HanLP,相关说明请参见HanLP使用文档
- 然后运行main/Main.class即可
- 建议导入用户词典
输入:刘小绪非常喜欢跑步
> 刘小绪,喜欢,跑步
> 刘小绪,非常喜欢,跑步
输入:刘小绪和李华是朋友
> 刘小绪,朋友,李华
输入:刘小绪生于四川
> 刘小绪,生于,四川
输入:刘小绪洗干净了衣服
> 刘小绪,洗,衣服
> 刘小绪,洗干净了,衣服
输入:海洋由水组成
> 水,组成,海洋
输入:父亲是来自肯尼亚的留学生
> 父亲,是,留学生
输入:刘小绪就职于学校
> 刘小绪,就职于,学校
输入:**的首都是北京
> **,首都,北京
> 首都,是,北京
1.导入用户词典,在使用的过程中,我发现有很多命名实体HanLP无法识别,导入用户词典的准确率更高。
2.尽量把句子切分为短句,因为是基于HanLP提供的依存句法分析工具,HanLP无法识别多个独立句子的组合。
HanLP依存句法分析