wangpeng138375 / relation-extraction

医疗实体及关系识别挑战赛

队名：五叶草

运行环境

python==3.7.11
torch==1.9.0
transformers==4.11.3
pytorch-lightning==1.4.7
tqdm==4.62.3
numpy==1.21.0
scikit-learn==0.24.2

复现流程

原始数据放在data文件夹；
下载chinese-roberta-wwm-ext-large模型，已发送到邮箱，与开源的有些许差别，vocab.txt添加了一些专业的词汇，替换了[unused1]-[unused36]；
需要GPU(v100 32G)环境，训练ner模型，大概需要3小时。本地文件夹下运行global_pointer.py，将生成数据data/labels.json、data/train.json、data/testB_ner.txt、五折交叉的模型global_pointer_model_1、global_pointer_model_2、global_pointer_model_3、global_pointer_model_4、global_pointer_model_5；
需要GPU(v100 32G)环境，训练relation模型，大概需要12小时。本地文件夹下运行relation.py，将生成数据data_relation/train.json、data_relation/submit_B.txt、五折交叉的模型relation_model_1、relation_model_2、relation_model_3、relation_model_4、relation_model_5；
第4步生成的data_relation/submit_B.txt为最终的结果；

Tips

已经设置seed，按理说可以完全复现；

About

Languages

Language:Python 100.0%