yuand23 / dg2020_IE

金融知识图谱自动化构建比赛,抽空做一下。。。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

基于本体的金融知识图谱自动化构建

数据描述

  1. 金融研报知识图谱的图谱模式(Schema)。
    即 schema.json,包括:
  • 实体类型: 10种实体类型,每种实体类型的说明
  • 实体类型的属性: 部分实体类型拥有属性,给出属性名(key)及其说明
  • 实体与实体间的关系: 约 19 种关系
  1. 金融研报知识图谱的种子知识图谱。
    覆盖到图谱模式中的所有实体类型、属性和关系。包含三个json文件,即
  • entities.json 所有的实体数据
  • attrs.json 所有的属性三元组
  • relationships.json 所有的关系三元组
  1. 训练和验证数据
    来自财报内容的 200 份 txt 文件,即 yanbao000.txt ~ yanbao199.txt

  2. 测试数据
    从 1000 份 txt 文件中构建好的图谱内容,用以评测的最终效果测试

输入输出

  • 评测的输入:
    知识图谱的图谱模式(Schema),即定义了知识图谱的实体类型(Entity)、实体属性名(Attribution key)和实体间的关系(Relationship)。 种子知识图谱,以三个 json 的文件提供,即实体列表,实体与实体之间的关系列表,实体属性列表 从研报抽出来的 txt 形式的文本
  • 评测的输出:
    整合为 1 个 json 文件,包含三部分,为所构建出来的知识图谱的内容,包括实体列表、实体与实体之间的关系列表,实体属性列表,格式与输入的种子知识图谱一致。其内容为新增的数据,即构建结果图谱中,剔除了输入的种子知识图谱已有的数据。

例子

输入: schema.json、entities.json、attrs.json、relationships.json、yanbao1.txt, yanbao2.txt, ……。

输出: answer.json,包括(1)所有构建出来的实体列表,不同表示的实体需要做融合;(2)实体属性列表(Schema发布的时候会同时标明属性的类型,部分属性类型会要求归一化,比如时间会要求归一化到YYYY-mm-dd);(3)实体与实体之间的关系列表.

其中: schema.json

{
    "entity_type": ["机构", "产品", ……],
    "attrs": {
        "机构": {"地址": "string", "注册日期": "date", "上市日期": "date", ……},
        "产品": {"英文名称": "string", ……},
        ……
    },
    "relationships": [["机构", "生产", "产品"], ["机构", "供应商", "机构"], ……],
}

entities.json

{   
    "公司": ["特斯拉", "松下", "LG", ...],
}

attrs.json

{
    "attrs": [["新型冠状病毒", "别名", "2019-nCoV"], ...]
}

relationships.json

{
    "relationships": ["松下", "生产", "锂离子动力电池"]
}

yanbao1.txt

宁德时代将为特斯拉供应锂电池两年。根据协议,在有效供货期间内 (2020 年 7 月 1 日—2022 年 6 月 30 日),特斯拉将根据自身需求以订单形式向宁德时代 采购锂离子动力电池。协议并未对特斯拉的采购数量进行强制约束。随着宁德时代的加入,特斯拉目前的动力电池合作伙伴增加至三家:松下、LG、宁德时代。

yanbao2.txt

新型冠状病毒(2019-nCoV)抗体检测试剂盒(胶体金法),用于体外定性检测人血清、血浆和全血样本中新型冠状病毒抗体(IgM/IgG),为新冠肺炎的疑似患者、无症状患者、密切接触者,核酸检测阴性者提供快速、便捷的现场检测手段,是对核酸检测的补充或协同。但同时值得注意的是,该产品仅用作对新型冠状病毒核酸检测阴性疑似病例的补充检测指标或疑似病例诊断中与核酸检测协同使用,仅限医疗机构使用。
目前新冠病毒检测方法主要采用核酸检测和免疫学检测,不同方法学在使用的条件、检测灵敏度、检测速度、使用成本等方面存在不同特点。
新型冠状病毒仅含有 RNA 遗传物质,病毒中特异性 RNA 序列是识别该病毒的标志物。核酸检测是新冠确诊的金标准,可靠性好,但其使用条件相对苛刻,过程相对繁琐,检验流程耗时较长,成本相对较高。
免疫学方法省去了病毒核酸提取的步骤,大大降低了检测时间。在免疫学方法中,胶体金法由于操作便捷,不依赖仪器,小巧灵活,成本低廉,适合开发 POCT(即时检测)产品。但鉴于抗原/抗体检测试剂的特点与现状,目前其灵敏度和特异性有限,不能作为新冠肺炎确诊和排除的唯一依据,不适用于一般人群的筛查,仅可作为已有病毒核酸检测试剂的补充。尽管胶体金法产品存在上述局限,其灵活、即时检测、开展成本低的优点,决定了这一产品在医疗机构中可以与核酸法形成良好互补协同效应。

yanbao3.txt

目前已有的新型冠状病毒检测方法主要有基于荧光 PCR 法的核酸检测,和对病毒感染后人体血清中的免疫球蛋白 IgM/IgG 检测的胶体金免疫层析法(POCT)和酶联免疫吸附测定(ELISA)检测。不同方法学在使用的条件、检测灵敏度、检测速度、使用成本等方面存在不同特点。

answer.json

{
    "entities":
    {
    "公司": ["宁德时代", ...],
    }
    "attrs": [["酶联免疫吸附测定", "别名", "ELISA"], ...]
    "relationships": ["宁德时代", "生产", "锂离子动力电池"]
}

About

金融知识图谱自动化构建比赛,抽空做一下。。。


Languages

Language:Python 100.0%