awesome_Chinese_medical_NLP

中文医学NLP公开资源整理：术语集/语料库/词向量/预训练模型/知识图谱/命名实体识别/QA/信息抽取/etc

术语集/语料库

medical-news 中文医学新闻爬虫
medical-books 中文LaTex开源医学书籍
THUOCL 清华大学thunlp组医学词汇
ICD-10-CN ICD-10中文对应
OMAHA七巧板医学术语集样例数据
中文糖尿病标注数据集包含实体标注和关系标注

词向量/预训练模型

ChineseEHRBert 中文电子病历预训练Bert；用Bert测试命名实体识别，问答模型，关系提取任务

分词

PKUSEG PKUSEG分词工具，模型支持选择医学

知识图谱

cMeKG Chinese Medical Knowledge Graph
瑞金医院人工智能辅助构建知识图谱大赛糖尿病相关的学术论文以及糖尿病临床指南的实体标注和抽取实体关系任务
OMAHA知识图谱（药品适应症）开放医疗与健康联盟（Open Medical and Healthcare Alliance，OMAHA）构建的药品与药品适应证的知识图谱数据
医疗知识图谱数据医疗知识图谱数据（ownthink）
病人事件图谱数据集病人事件图谱是一种新的基于RDF的医疗观察性数据表示模型，可以清晰地表示临床检查、诊断、治疗等多种事件类型以及事件的时序关系。使用三家上海三甲医院的电子病历数据，构建了包括3个专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念链接的医疗数据集。
中文症状库这是一个包含症状实体和症状相关三元组的数据集。中文症状库的数据来自8个主流的健康咨询网站、3个中文百科网站和电子病历。它还包含了中文症状与UMLS中概念的链接结果。
中医医案知识图谱从医案中抽取临床知识构建知识图谱，帮助用户了解中医特色疗法，以及疾病（如“慢性胃炎”）的临床表现、相关疗法、相关养生保健方法等
herbnet 面向中药研究，根据中药领域模型的特点，构建了一个包括中医疾病，方剂，中药，中药化学成分，药理作用，中药实验，化学实验方法在内的中药本体。进而，基于本体实现了一系列数据库的集成，从而构建了一个中药知识图谱。

命名实体识别

CCKS2017 面向中文电子病历的医疗实体识别及属性抽取数据集
CCKS2018 面向中文电子病历的医疗实体识别及属性抽取数据集
CCKS2019 数据下载面向中文电子病历的医疗实体识别及属性抽取数据集

QA

CCIR2019 CCIR 2019 基于电子病历的数据查询类问答
cMedQA 中文医学QA数据集
cMedQA2 中文医学QA数据集
CMID 中文医学QA意图理解数据集
KGQA 基于医药知识图谱的智能问答系统
chatbot-base-on-Knowledge-Graph 使用深度学习方法解析问题知识图谱存储查询知识点基于医疗垂直领域的对话系统
中文医疗对话数据集 Chinese medical dialogue data 中文医疗对话数据集
webMedQA webMedQA
MedDialog The MedDialog dataset contains conversations (in Chinese) between doctors and patients. It has 1.1 million dialogues and 4 million utterances.

信息抽取

相似句对判断

“公益AI之星”挑战赛-新冠疫情相似句对判定大赛比赛整理近万条真实语境下疫情相关的肺炎、支原体肺炎、支气管炎、上呼吸道感染、肺结核、哮喘、胸膜炎、肺气肿、感冒、咳血等患者提问句对，要求选手通过自然语言处理技术识别相似的患者问题。

其他

CHIP2019 平安医疗科技疾病问答迁移学习比赛
CHIP2019 临床术语标准化任务:医渡云标准化7K数据集
CHIP2018 针对中文的真实患者健康咨询语料，进行问句意图匹配

peide / awesome_Chinese_medical_NLP

awesome_Chinese_medical_NLP

术语集/语料库

词向量/预训练模型

分词

知识图谱

命名实体识别

QA

信息抽取

相似句对判断

其他

About