findalexli / mllm-dpo

[ACL 2024] Multi-modal preference alignment remedies regression of visual instruction tuning on language model

https://aclanthology.org/2024.acl-long.765/

findalexli/mllm-dpo Issues

ValueError: Some specified arguments are not used by the HfArgumentParser: ['--task', 'DPO'...]
Updated 4 months ago
Loading Dataset returns error from huggingface
Updated 5 months ago
Script for train data gen
Closed 5 months ago