FreedomIntelligence / HuatuoGPT

HuatuoGPT, Towards Taming Language Models To Be a Doctor. (An Open Medical GPT)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

你好,请问能公开偏好数据集吗?

tomhas-hub opened this issue · comments

有篇论文叫“Direct Preference Optimization(直接偏好优化)”,说是不用训练奖励模型,直接偏好训练大模型,我想在HuatuoGPT上应用。

Hi @tomhas-hub :
感谢您的关注,我们暂时没有计划开源偏好数据集,不过您可以使用我们的reward model来构建自己的偏好数据集然后实现DPO算法。