zeroQiaoba / gpt4v-emotion

GPT-4V with Emotion

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

为什么选择3帧?

KaetheFu opened this issue · comments

您好,在阅读了您的论文后,我不理解为什么要选去3帧作为MSA任务中视觉的输入,我试图传入4帧或者更多帧的图片给GPT-4V,我发现很多之前不能判断正确的情感被准确的预测出来了。

主要原因在于API调用成本。 在动态表情识别中,我们测试了超过 10k 个样本。仅以FERV39k数据集为例,如果我们将采样率从2提高到3,仅一个数据集就需要超过50美元以上,而评估费用基本上我们自费的。 因此,论文中将采样数限制为3。我们也在5.2节中也讨论了采样数量的影响,证明了采样更多帧确实有助于性能提升。 我们希望您可以通过采样更多的帧来进行更准确的定量评估。

感谢您的解答,请问我能和您要一小点CMU-MOSI的数据集的Raw data吗? 我的邮箱是578426528@qq.com

不好意思,我们没有原始数据集分享的权限。请联系原始论文的作者。