Baseline

baseline:0.57969，和线下指标很接近。使用的模型：bert+crf.

数据集：https://biendata.com/competition/ccks_2020_8/data/

预训练模型下载：https://github.com/ymcui/Chinese-BERT-wwm

通过requirements.txt安装环境。

训练：train.py

预测：inference.py

任务背景

军事装备试验鉴定是指通过规范化的组织形式和试验活动，对被试对象进行全面考核并作出评价结论的国家最高检验行为，涵盖方法、技术、器件、武器系统、平台系统、体系、训练演习等领域，涉及面广、专业性强。近年来，自然语言理解和人工智能技术飞速发展，日趋成为推动大数据建设的重要力量。试验鉴定由于试验目的的不同、被试对象的特点、武器系统的特性，有着自身较为特殊的语言形式，自然语言处理技术服务于该领域大数据建设的效果如何、基线在哪里，是总体单位非常关注的问题。为此，我们以命名实体识别任务为切入点，逐步开展这方面的工作，以期通过评测的形式，促进交流、掌握基线、提升技术水平，遴选优秀技术为相关项目建设提供参考，共同推动试验鉴定领域大数据建设。

任务定义

输入

试验鉴定相关自然语言文本集合

$$ \mathcal{D}=\left{d_{1}, \cdots d_{N}\right}, \quad d_{i}=\left\langle w_{i 1}, \cdots w_{i n}\right\rangle $$

预定义类别

$$ C=\left{c_{1}, \cdots c_{m}\right} $$

输出

实体提及和所属类别对的集合： $$ \left{\left\langle m_{1}, c_{m_{1}}\right\rangle,\left\langle m_{2}, c_{m_{2}}\right\rangle, \cdots\left\langle m_{p}, c_{m_{p}}\right\rangle\right} $$ 其中 $m_i =(d_i,b_i,e_i)$是出现在文档$d_i$ 中的试验鉴定实体提及，$b_i$ 和 $e_i$ 分别表示 $m_i$ 在 $d_i$ 中的起止位置，$c_{m_i} \in C$ 表示所属的预定义类别。要求实体提及之间不重叠，即 $e_i < b_{i+1}$。多次出现的实体，只标注一次。

例如：输入：美国洛马公司在新墨西哥州白沙导弹靶场，完成“微型碰撞杀伤”拦截弹重新设计后的第二次飞行试验，进一步检验了拦截弹的敏捷性和气动性能，标志着其成熟度进一步提升。“微型碰撞杀伤”拦截弹采取直接碰撞杀伤技术，主要用于提高美国陆军应对火箭弹威胁的能力。

输出：

{
"begin_pos":21,"end_pos":31,"试验要素"
"begin_pos":56,"end_pos":58,"性能指标"
"begin_pos":60,"end_pos":63,"性能指标"
"begin_pos":91,"end_pos":98,"系统组成"
"begin_pos":106,"end_pos":109,"任务场景"
"begin_pos":112, "end_pos":116,"任务场景"
}

预定义类别

预定义类别定义如下： **1) 试验要素：**试验鉴定工作的对象，如列为考核目标的武器装备（系统级）、技术、战术、人员、对象之间的能力等；支持完成试验鉴定所需的条件，如陪试品、参试装备、测试、测量、靶标、仿真等；装备的基本情况等。例如：RS-24弹道导弹、SPY-1D相控阵雷达、紫菀防空导弹（Aster）、F-35“闪电”II型联合攻击战斗机、“阿利·伯克”级Flight IIA型驱逐舰“约翰芬”号、协同通信与指挥、连续波测量雷达、电影经纬仪、无人机靶标等。

**2) 性能指标：**试验要素在技术、使用等性能方面的定性、定量描述，如重量、射程、可靠性等。例如：测量精度、圆概率偏差、失效距离、准备时间、反激光毁伤、发射方式等。

**3) 系统组成：**被试对象的组成部分，如子系统、部件、采用的技术等。例如：动能杀伤飞行器（KKV）、中波红外导引头、助推器、整流罩、箔条红外混合诱饵弹、碰撞杀伤技术、柔性摆动喷管技术、端羟基聚丁二烯、等。

**4) 任务场景：**试验要素在发挥其实际效用和价值中涉及的信息，如人员、对抗目标、体系能力等。例如：法国海军、导弹预警、恐怖袭击、迫击炮威胁、排级作战等。

评价指标

本次任务，采用 F1-Measure 作为评测指标，具体定义如下：

试验鉴定相关自然语言文本集合

$$ \mathcal{D}=\left{d_{1}, \cdots d_{N}\right}, \quad d_{i}=\left\langle w_{i 1}, \cdots w_{i n}\right\rangle $$

预定义类别

$$ C=\left{c_{1}, \cdots c_{m}\right} $$

对于任意一个预定义类别 $c_i$，设集合 D 中包含 $c_i$ 的实体数量为 AP，对 $c_i$ 进行识别，正确识别结果数量为 TP，错误识别结果数量为FP。

精确率P：$p = \frac{TP}{TP+FP}$

召回率R：$R = \frac{TP}{AP}$

F1:$F1 = \frac{2PR}{P+R}$

统计

出现次数

实验要素：1537
性能指标：712
任务场景：516
系统组成：396

实体出现超过2次以上的：

试验要素飞行试验:33, 无人机:12, 弹道导弹:11, 导弹:7, 飞行过程:6, 目标:5, 反舰导弹:5, 洲际弹道导弹:4, F-16战斗机:4, 巡航导弹:4, 预定目标:4, 空中目标:3, 飞机:3, 实弹射击试验:3, 拦截试验:3, 传感器:3, 实弹:3, 地面试验:3, 战斗机:3, 战机:3, 靶标:3, 潜艇:3, 初始作战试验:3, F-35战斗机:3, 小型无人机:3, “小直径炸弹”Ⅱ:3, 研制试验:3, “宙斯盾”武器系统:3, 空中加油试验:3
性能指标射程:44, 重:15, 速度:13, 精度:8, 长:8, 作战能力:6, 初始作战能力:6, 低空:5, 质量:5, 高度:5, 可靠性:5, 飞行高度:5, 飞行距离:5, 水下:5, 稳定性:5, 静止:4, 精确:4, 高空:4, 准确:4, 杀伤力:4, 有效载荷:4, 准确性:3, 安全性:3, 机动:3, 尺寸:3, 移动目标:3, 飞机:3, 无人机:3, 有效性:3, 精确制导:3, 全功率:3, 飞行速度:3, 精准度:3, 空中加油:3
任务场景俄罗斯:6, 潜艇:5, 反导系统:5, 美国:4, 目标:3, 美军:3, 武器:3, 飞机:3, 导弹:3, 美国陆军:3
系统组成核弹头:11, 弹头:4, 传感器:4, 导引头:4, 诱饵:3, 发动机:3, 再入弹头:3, 战斗部:3, 弹药:3

About

军事装备试验鉴定是指通过规范化的组织形式和试验活动，对被试对象进行全面考核并作出评价结论的国家最高检验行为，涵盖方法、技术、器件、武器系统、平台系统、体系、训练演习等领域，涉及面广、专业性强。近年来，自然语言理解和人工智能技术飞速发展，日趋成为推动大数据建设的重要力量。试验鉴定由于试验目的的不同、被试对象的特点、武器系统的特性，有着自身较为特殊的语言形式，自然语言处理技术服务于该领域大数据建设的效果如何、基线在哪里，是总体单位非常关注的问题。为此，我们以命名实体识别任务为切入点，逐步开展这方面的工作，以期通过评测的形式，促进交流、掌握基线、提升技术水平，遴选优秀技术为相关项目建设提供参考，共同推动试验鉴定领域大数据建设。

Languages

Language:Python 100.0%