benben18 / DISEASE-NER

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Desease-NER

read_data_csv.py

简单的数据处理,读取说明书数据中的适应症一列。存储为Indication.csv

doPrepareTrainSets_说明书.py

此文件主要为了生成用于训练的BIO三元组数据。

输入数据:

(1)三个字典:

1、疾病名称字典  disease_new2.dic

数据来源:互联网爬取的疾病名称,疾病别名,以及ICD10记录的疾病名称,去重后有39615条数据。

2、疾病症状字典  symptom_new2.dic

数据来源:互联网爬去的症状描述,共7457条数据。

3、人体部位字典  body中文身体部位名称.dic

 数据来源: 互联网爬去的身体部位,去重后1929条数据。

(2)待标注的适应症语料:Indication.csv

	数据来源:有34519条数据

数据处理:

加载待处理的文本,对规范化的句子,使用词典中的每个词进行全匹配,将检测出的实体转化成BIO格式

具体流程:

1、按行读取待处理文本text
	
2、对text和三个词典进行最大匹配,并记录匹配到的词在text中的初始和结束位置,匹配的结果分别存放在R1,R2,R3中。
	
3、将R1,R2,R3结果进行合并,并增加一列记录词的长度。存在R5中。
	
4、由于在匹配过程中,会出现重复的位置和词,因此利用词出现的起始位置,选取跨度范围较大的词,并将结果保存在R6中。
	
5、 按照R6中词的起始位置的结果,利用ner2lable函数将text转化为BIO格式,生成最终的标注文档 ner_train_data.txt。

About


Languages

Language:Python 100.0%