read_data_csv.py
简单的数据处理,读取说明书数据中的适应症一列。存储为Indication.csv
doPrepareTrainSets_说明书.py
此文件主要为了生成用于训练的BIO三元组数据。
输入数据:
(1)三个字典:
1、疾病名称字典 disease_new2.dic
数据来源:互联网爬取的疾病名称,疾病别名,以及ICD10记录的疾病名称,去重后有39615条数据。
2、疾病症状字典 symptom_new2.dic
数据来源:互联网爬去的症状描述,共7457条数据。
3、人体部位字典 body中文身体部位名称.dic
数据来源: 互联网爬去的身体部位,去重后1929条数据。
(2)待标注的适应症语料:Indication.csv
数据来源:有34519条数据
数据处理:
加载待处理的文本,对规范化的句子,使用词典中的每个词进行全匹配,将检测出的实体转化成BIO格式
具体流程:
1、按行读取待处理文本text
2、对text和三个词典进行最大匹配,并记录匹配到的词在text中的初始和结束位置,匹配的结果分别存放在R1,R2,R3中。
3、将R1,R2,R3结果进行合并,并增加一列记录词的长度。存在R5中。
4、由于在匹配过程中,会出现重复的位置和词,因此利用词出现的起始位置,选取跨度范围较大的词,并将结果保存在R6中。
5、 按照R6中词的起始位置的结果,利用ner2lable函数将text转化为BIO格式,生成最终的标注文档 ner_train_data.txt。