Eddie1026 / NCBI

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

1)NCBI疾病数据集是一个在提及和概念层面进行全面标注的数据集,可以用于实体识别实验,常用于疾病实体识别研究。 数据包含: 793篇摘要 2783个句子 6892个疾病mention 790个唯一疾病概念 – 医学主题词【Medical Subject Headings (MeSH®)】 – 人类孟德尔遗传学【Online Mendelian Inheritance in Man (OMIM®)】 mention表中的91%都由一个疾病概念一一对应,分成训练集、验证集和测试集 PS:设计的关键字数据集文件来源于NCBI测试集,即NCBItestset_corpus.txt文件。 2)介绍NCBI数据集的文献:Dogan, Rezarta Islamaj et al. “NCBI disease corpus: A resource for disease name recognition and concept normalization.” Journal of biomedical informatics 47 (2014): 1-10 . 3)NCBI数据集的下载链接:https://www.ncbi.nlm.nih.gov/CBBresearch/Dogan/DISEASE/disclaimer.html

About