你好，请问能公开偏好数据集吗？

Question

tomhas-hub opened this issue 9 months ago · comments

有篇论文叫“Direct Preference Optimization(直接偏好优化)”，说是不用训练奖励模型，直接偏好训练大模型，我想在HuatuoGPT上应用。

Hongbo Zhang · Answer 1 · Wed Dec 06 2023 13:57:08 GMT+0800 (China Standard Time)

Hi @tomhas-hub :
感谢您的关注，我们暂时没有计划开源偏好数据集，不过您可以使用我们的reward model来构建自己的偏好数据集然后实现DPO算法。