DirkFi / Marvel_KG

漫威知识图谱 Marvel Knowledge Graph

漫威知识图谱 Marvel knowledge graph

知识图谱概况

数据源：中文维基百科、百度百科、漫威人物关系数据库
实体：100+漫威人物
属性：中文/英文名、性别、登场作品、所属团队、角色经历、能力值等
关系三元组：320+

一.配置环境

配置环境以及安装neo4j，python版本需为3.6
控制台输入 "neo4j console" 启动neo4j
修改“KG_Marvel\neo_db\config.py”中的用户名密码
解压“KG_Marvel\KGQA\ltp_data_v3.4.0.zip”
修改“KG_Marvel\KGQA\ltp.py”中的模型路径（需用绝对路径）
运行“KG_Marvel\neo_db\creat_graph.py”，将关系传入数据库
运行 "KG_Marvel\app.py"
浏览器输入“http://localhost:5000/” 进入知识图谱。

二.文件描述

KGQA: 储存了基于ltp模型的分词函数
neo_db: 建立neo4j数据库
spyder：储存超级英雄个人信息和图片以及关系
static: 网页中用到的图片字体等
templates: 网页脚本
app.py: 启动知识图谱

三.算法说明

1.事实抽取

crawl存放爬虫文件，get_hlm_character.py、spider_url.py等进行信息抽取，外网数据.py为后期信息补充
初始数据处理文件夹记录了数据清洗过程

2.知识融合

wikispyder找到维基百科中漫威领域对应数据
根据词向量距离进行知识融合

3.类别推断

Type_Inference.py进行基于规则的类别推断

4.知识问答

FLAT模型包含FLAT命名实体识别模型
ltp.py为LTP中文分词库的调用实现

5.推荐系统

WMSeg-sota分词包含WMSeg分词算法的实现
word2vec.ipynb计算词向量，找到最合适的推荐实体

四.部分可视化展示

词云

全部关系图

单人物关系网

知识问答

About

漫威知识图谱 Marvel Knowledge Graph

Languages

Language:Python 98.8%Language:HTML 0.8%Language:CSS 0.1%Language:PowerShell 0.1%Language:JavaScript 0.1%Language:Jupyter Notebook 0.1%Language:Shell 0.1%Language:Roff 0.0%