随着医院信息化的发展,医学临床数据呈现出指数级的增长和积累,其中大多数为非结构化的自由文本数据。基于自然语言处理技术(NLP)将非结构化的医疗文本转化为结构化的信息,挖掘知识,并开发相关工具应用于临床上,在智慧医疗英语具有巨大的价值和潜力。
一般来说,医学自然语言处理包括命名实体识别、实体标准化、关系抽取、文本分类、决策支持系统构建等。此实验内容为医学短文本分类。
数据来源于第五届**健康信息处理会议(CHIP2019)评测三。为**临床试验注册网站公开的临床试验受试者筛选标准文本。数据特点未自由文本格式,短文本,非结构化,中文,医学相关。
我们筛选了其中的10000条数据,其中训练数据8000条,测试数据2000条。
类别包括15种,分别为: 成瘾行为(addictive behavior)
、年龄(age)
、过敏耐受(allergy intolerance)
、 依存性(compliance with protocol)
、知情同意(consent)
、诊断(diagnostic)
、疾病(disease)
、参与其它试验(enrollment in other studies)
、实验室检查(laboratory examinations)
、预期寿命(life expectancy)
、器官组织状态(organ or tissue status)
、药物(pharmaceutical substance or drug)
、风险评估(risk assessment)
、吸烟状况(smoking status)
、治疗或手术(therapy or surgery)
。
详细流程见文件 Chinese_Medical_Text_Classification.pptx
- 软件工具
- Anaconda3
- Python3
- Jupyter Notebook
- Pyramid
- Docker
- Python3 依赖包
# python3 packages install
pip install -r requirements.txt
- 逻辑回归, logistic regression
- 支持向量机, support vector machine
- K近邻算法, k nearest neighbors
- 朴素贝叶斯, naive bayes
- 随机森林, ranodm forest
神经网络, Neural network
docker pull zonghui0228/cn_med_text_class:latest
- 选择1:直接运行镜像
docker run -it -d -p 6543:6543 zonghui0228/cn_med_text_class
- 选择2:训练好自己的模型后,加载到镜像里,运行镜像
# 建立文件夹model
mkdir model
cd model
# 将模型文件都移动到此文件夹,然后执行:
docker run -it -d -p 6543:6543 zonghui0228/cn_med_text_class
docker cp ./ CONTAINER_ID:/home/zonghui/mynginx/myproj/myproj/views/model/mymodel
http://ip:6543/index