Desease-NER

read_data_csv.py

简单的数据处理，读取说明书数据中的适应症一列。存储为Indication.csv

doPrepareTrainSets_说明书.py

此文件主要为了生成用于训练的BIO三元组数据。

输入数据：

（1）三个字典：

1、疾病名称字典  disease_new2.dic

数据来源：互联网爬取的疾病名称，疾病别名，以及ICD10记录的疾病名称，去重后有39615条数据。

2、疾病症状字典  symptom_new2.dic

数据来源：互联网爬去的症状描述，共7457条数据。

3、人体部位字典  body中文身体部位名称.dic

 数据来源： 互联网爬去的身体部位，去重后1929条数据。

（2）待标注的适应症语料：Indication.csv

	数据来源：有34519条数据

数据处理：

加载待处理的文本,对规范化的句子，使用词典中的每个词进行全匹配，将检测出的实体转化成BIO格式

具体流程：

1、按行读取待处理文本text
	
2、对text和三个词典进行最大匹配，并记录匹配到的词在text中的初始和结束位置，匹配的结果分别存放在R1,R2,R3中。
	
3、将R1,R2,R3结果进行合并，并增加一列记录词的长度。存在R5中。
	
4、由于在匹配过程中，会出现重复的位置和词，因此利用词出现的起始位置，选取跨度范围较大的词，并将结果保存在R6中。
	
5、 按照R6中词的起始位置的结果，利用ner2lable函数将text转化为BIO格式，生成最终的标注文档 ner_train_data.txt。

benben18 / DISEASE-NER

Desease-NER

About

Languages