zcdliuwei / daguan_2019_rank9

达观信息提取比赛第九名代码

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

datagrand_2019_rank9

2019年达观信息提取比赛第九名代码和答辩ppt

比赛地址:官网

代码目录结构

├── pydatagrand
|  └── callback
|  |  └── lrscheduler.py  
|  |  └── trainingmonitor.py 
|  |  └── ...
|  └── config
|  |  └── basic_config.py #a configuration file for storing model parameters
|  └── dataset   
|  └── io    
|  |  └── dataset.py  
|  |  └── data_transformer.py  
|  └── model
|  |  └── nn 
|  |  └── pretrain 
|  └── output #save the ouput of model
|  └── preprocessing #text preprocessing 
|  └── train #used for training a model
|  |  └── trainer.py 
|  |  └── ...
|  └── common # a set of utility functions
├── prepare_fold_data.py  # 数据切分
├── prepare_lm_data_mask.py  # 随机mask
├── prepare_lm_data_ngram.py  #ngram mask
├── run_bert_crf.py        # crf结构
├── run_bert_span.py   # span结构
├── train_bert_model.py  #训练bert模型

预训练模型

主要训练了8层跟12层BERT模型,采用随机mask + ngram mask两种混合动态masking模式

方案1

方案1主要采用BERT+LSTM+CRF结构

方案2

方案2在方案1的基础上增加了MDP结构

方案3

方案3主要采用BERT+LSTM+SPAN结构

结果

最终结果如下所示:

文档

十强答辩ppt下载地址: https://pan.baidu.com/s/1yvXFf5GzyvDksdBKNp9FKQ 提取码: svr2

About

达观信息提取比赛第九名代码


Languages

Language:Python 100.0%