FudanDISC / DISC-MedLLM

Repository of DISC-MedLLM, it is a comprehensive solution that leverages Large Language Models (LLMs) to provide accurate and truthful medical response in end-to-end conversational healthcare services.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

medical_dialogue数据集问题

YJSoooooo opened this issue · comments

大佬,您好!刚刚拜读了您的DISC-MedLLM这篇论文,您不仅介绍了数据集构建,还分享了处理后的数据集。我今天也拿到了medical_dialogue数据集,我想问一下您在处理这部分数据的时候,保留了哪些字段,丢弃了哪些字段。
image

我看到您的数据集,在第一轮对话中,只抽取了【疾病:,病情描述:, 】希望获得的帮助这个字段您保留了吗, 我看到剩下的几个字段包括【患病多久:,过敏史:】都没有保留

希望大佬可以回答我的问题,感谢!!!!

如果大佬可以提供一下medical_dialogue数据集的处理脚本那就太好了。我的邮箱:107552204107@stu.xju.edu.cn

commented

该数据集作者提供了经过预处理的版本