为什么选择3帧？

Question

为什么选择3帧？

KaetheFu opened this issue 4 months ago · comments

您好，在阅读了您的论文后，我不理解为什么要选去3帧作为MSA任务中视觉的输入，我试图传入4帧或者更多帧的图片给GPT-4V，我发现很多之前不能判断正确的情感被准确的预测出来了。

zeroQiaoba · Answer 1 · Fri Mar 22 2024 15:24:23 GMT+0800 (China Standard Time)

主要原因在于API调用成本。在动态表情识别中，我们测试了超过 10k 个样本。仅以FERV39k数据集为例，如果我们将采样率从2提高到3，仅一个数据集就需要超过50美元以上，而评估费用基本上我们自费的。因此，论文中将采样数限制为3。我们也在5.2节中也讨论了采样数量的影响，证明了采样更多帧确实有助于性能提升。我们希望您可以通过采样更多的帧来进行更准确的定量评估。

KaetheFu · Answer 2 · Sat Mar 23 2024 23:41:32 GMT+0800 (China Standard Time)

感谢您的解答，请问我能和您要一小点CMU-MOSI的数据集的Raw data吗？我的邮箱是578426528@qq.com

zeroQiaoba · Answer 3 · Tue Mar 26 2024 12:10:35 GMT+0800 (China Standard Time)

不好意思，我们没有原始数据集分享的权限。请联系原始论文的作者。