Raymondwo / ccks2020-task8

军事装备试验鉴定是指通过规范化的组织形式和试验活动,对被试对象进行全面考核并作出评价结论的国家最高检验行为,涵盖方法、技术、器件、武器系统、平台系统、体系、训练演习等领域,涉及面广、专业性强。 近年来,自然语言理解和人工智能技术飞速发展,日趋成为推动大数据建设的重要力量。试验鉴定由于试验目的的不同、被试对象的特点、武器系统的特性,有着自身较为特殊的语言形式,自然语言处理技术服务于该领域大数据建设的效果如何、基线在哪里,是总体单位非常关注的问题。 为此,我们以命名实体识别任务为切入点,逐步开展这方面的工作,以期通过评测的形式,促进交流、掌握基线、提升技术水平,遴选优秀技术为相关项目建设提供参考,共同推动试验鉴定领域大数据建设。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Baseline

baseline:0.57969,和线下指标很接近。使用的模型:bert+crf.

数据集:https://biendata.com/competition/ccks_2020_8/data/

预训练模型下载:https://github.com/ymcui/Chinese-BERT-wwm

通过requirements.txt安装环境。

训练:train.py

预测:inference.py

任务背景

军事装备试验鉴定是指通过规范化的组织形式和试验活动,对被试对象进行全面考核并作出评价结论的国家最高检验行为,涵盖方法、技术、器件、武器系统、平台系统、体系、训练演习等领域,涉及面广、专业性强。 近年来,自然语言理解和人工智能技术飞速发展,日趋成为推动大数据建设的重要力量。试验鉴定由于试验目的的不同、被试对象的特点、武器系统的特性,有着自身较为特殊的语言形式,自然语言处理技术服务于该领域大数据建设的效果如何、基线在哪里,是总体单位非常关注的问题。 为此,我们以命名实体识别任务为切入点,逐步开展这方面的工作,以期通过评测的形式,促进交流、掌握基线、提升技术水平,遴选优秀技术为相关项目建设提供参考,共同推动试验鉴定领域大数据建设。

任务定义

输入

  1. 试验鉴定相关自然语言文本集合

$$ \mathcal{D}=\left{d_{1}, \cdots d_{N}\right}, \quad d_{i}=\left\langle w_{i 1}, \cdots w_{i n}\right\rangle $$

  1. 预定义类别

$$ C=\left{c_{1}, \cdots c_{m}\right} $$

输出

实体提及和所属类别对的集合: $$ \left{\left\langle m_{1}, c_{m_{1}}\right\rangle,\left\langle m_{2}, c_{m_{2}}\right\rangle, \cdots\left\langle m_{p}, c_{m_{p}}\right\rangle\right} $$ 其中 $m_i =(d_i,b_i,e_i)$是出现在文档$d_i$ 中的试验鉴定实体提及,$b_i$ 和 $e_i$ 分别表示 $m_i$$d_i$ 中的起止位置,$c_{m_i} \in C$ 表示所属的预定义类别。要求实体提及之间不重叠,即 $e_i < b_{i+1}$。多次出现的实体,只标注一次。

例如: 输入:美国洛马公司在新墨西哥州白沙导弹靶场,完成“微型碰撞杀伤”拦截弹重新设计后的第二次飞行试验,进一步检验了拦截弹的敏捷性和气动性能,标志着其成熟度进一步提升。“微型碰撞杀伤”拦截弹采取直接碰撞杀伤技术,主要用于提高美国陆军应对火箭弹威胁的能力。

输出

{
"begin_pos":21,"end_pos":31,"试验要素"
"begin_pos":56,"end_pos":58,"性能指标"
"begin_pos":60,"end_pos":63,"性能指标"
"begin_pos":91,"end_pos":98,"系统组成"
"begin_pos":106,"end_pos":109,"任务场景"
"begin_pos":112, "end_pos":116,"任务场景"
}

预定义类别

预定义类别定义如下: **1) 试验要素:**试验鉴定工作的对象,如列为考核目标的武器装备(系统级)、技术、战术、人员、对象之间的能力等;支持完成试验鉴定所需的条件,如陪试品、参试装备、测试、测量、靶标、仿真等;装备的基本情况等。 例如:RS-24弹道导弹、SPY-1D相控阵雷达、紫菀防空导弹(Aster)、F-35“闪电”II型联合攻击战斗机、“阿利·伯克”级Flight IIA型驱逐舰“约翰芬”号、协同通信与指挥、连续波测量雷达、电影经纬仪、无人机靶标等。

**2) 性能指标:**试验要素在技术、使用等性能方面的定性、定量描述,如重量、射程、可靠性等。 例如:测量精度、圆概率偏差、失效距离、准备时间、反激光毁伤、发射方式等。

**3) 系统组成:**被试对象的组成部分,如子系统、部件、采用的技术等。 例如:动能杀伤飞行器(KKV)、中波红外导引头、助推器、整流罩、箔条红外混合诱饵弹、碰撞杀伤技术、柔性摆动喷管技术、端羟基聚丁二烯、等。

**4) 任务场景:**试验要素在发挥其实际效用和价值中涉及的信息,如人员、对抗目标、体系能力等。 例如:法国海军、导弹预警、恐怖袭击、迫击炮威胁、排级作战等。

评价指标

本次任务,采用 F1-Measure 作为评测指标,具体定义如下:

  1. 试验鉴定相关自然语言文本集合

$$ \mathcal{D}=\left{d_{1}, \cdots d_{N}\right}, \quad d_{i}=\left\langle w_{i 1}, \cdots w_{i n}\right\rangle $$

  1. 预定义类别

$$ C=\left{c_{1}, \cdots c_{m}\right} $$

对于任意一个预定义类别 $c_i$,设集合 D 中包含 $c_i$ 的实体数量为 AP,对 $c_i$ 进行识别,正确识别结果数量为 TP,错误识别结果数量为FP。

精确率P:$p = \frac{TP}{TP+FP}$

召回率R:$R = \frac{TP}{AP}$

F1:$F1 = \frac{2PR}{P+R}$

统计

出现次数

  1. 实验要素:1537
  2. 性能指标:712
  3. 任务场景:516
  4. 系统组成:396

实体出现超过2次以上的:

  1. 试验要素 飞行试验:33, 无人机:12, 弹道导弹:11, 导弹:7, 飞行过程:6, 目标:5, 反舰导弹:5, 洲际弹道导弹:4, F-16战斗机:4, 巡航导弹:4, 预定目标:4, 空中目标:3, 飞机:3, 实弹射击试验:3, 拦截试验:3, 传感器:3, 实弹:3, 地面试验:3, 战斗机:3, 战机:3, 靶标:3, 潜艇:3, 初始作战试验:3, F-35战斗机:3, 小型无人机:3, “小直径炸弹”Ⅱ:3, 研制试验:3, “宙斯盾”武器系统:3, 空中加油试验:3
  2. 性能指标 射程:44, 重:15, 速度:13, 精度:8, 长:8, 作战能力:6, 初始作战能力:6, 低空:5, 质量:5, 高度:5, 可靠性:5, 飞行高度:5, 飞行距离:5, 水下:5, 稳定性:5, 静止:4, 精确:4, 高空:4, 准确:4, 杀伤力:4, 有效载荷:4, 准确性:3, 安全性:3, 机动:3, 尺寸:3, 移动目标:3, 飞机:3, 无人机:3, 有效性:3, 精确制导:3, 全功率:3, 飞行速度:3, 精准度:3, 空中加油:3
  3. 任务场景 俄罗斯:6, 潜艇:5, 反导系统:5, 美国:4, 目标:3, 美军:3, 武器:3, 飞机:3, 导弹:3, 美国陆军:3
  4. 系统组成 核弹头:11, 弹头:4, 传感器:4, 导引头:4, 诱饵:3, 发动机:3, 再入弹头:3, 战斗部:3, 弹药:3

About

军事装备试验鉴定是指通过规范化的组织形式和试验活动,对被试对象进行全面考核并作出评价结论的国家最高检验行为,涵盖方法、技术、器件、武器系统、平台系统、体系、训练演习等领域,涉及面广、专业性强。 近年来,自然语言理解和人工智能技术飞速发展,日趋成为推动大数据建设的重要力量。试验鉴定由于试验目的的不同、被试对象的特点、武器系统的特性,有着自身较为特殊的语言形式,自然语言处理技术服务于该领域大数据建设的效果如何、基线在哪里,是总体单位非常关注的问题。 为此,我们以命名实体识别任务为切入点,逐步开展这方面的工作,以期通过评测的形式,促进交流、掌握基线、提升技术水平,遴选优秀技术为相关项目建设提供参考,共同推动试验鉴定领域大数据建设。


Languages

Language:Python 100.0%