zle1992 / atec

2018atec蚂蚁金服NLP智能客服比赛 16th/2632

Home Page:https://dc.cloud.alipay.com/index#/topic/intro?id=3

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

atec蚂蚁金服NLP智能客服比赛 16th/2632

https://dc.cloud.alipay.com/index#/topic/intro?id=3

目录

project
│   README.md
│      
│
└───data/ 词向量及一些中间文件
│   │ 
│   └───data/ 训练数据
│   │
│   └───log_dir/ log文件
│   │
│   │
│   └───share/  线下训练与线上提交的公共文件
│       └─── jieba/ 分词、停用词
|       |
│       └─── mv_w2v/ 训练词向量
|       |
│       └─── single/ 单模型
|       |
|       └─── stack/ cv模型及中间数据
│   
└───model/
│   │  各种模型
│   │   
└───feature/
│   │  提取的人工特征
│   │   
└───submit/
│   │  线下测试submit
│   │   
└───util/
│   │  辅助文件,分词,训练词向量,拼音转换等
│   │   
    
    

运行流程:

参数配置在util/config.py中

python util/CutWord.py (首次运行时) python util/w2v.py (首次运行时)

python train.py cv cnn1
对cnn1模型采用交叉验证。

一些实验记录

0612 fix cv bugs offline 数据扩充5 cv CNN : 0.63407952549263558 0.6155 0613 fix cv bugs offline 数据扩充5 cv ESIM : 0.65816989095636136

0626 CNN CV NO 数据扩充 26个特征: n :', 0.52228330874667162, 0.52633540429317449, 0.52415987274990683

0629 add checkpoint and best model earlystop and change lr 'mean :', 0.45830773149153237, 0.67153672904068951, 0.54450204294307059) ON LINE :0.6206

About

2018atec蚂蚁金服NLP智能客服比赛 16th/2632

https://dc.cloud.alipay.com/index#/topic/intro?id=3


Languages

Language:Jupyter Notebook 61.3%Language:Python 37.8%Language:Shell 0.9%