FLMR中Feature-based Vison的一些问题

Question

yjwang97 opened this issue 5 months ago · comments

您好，我最近在尝试根据论文复现FLMR的代码，我注意到在论文的表二中使用了Feature-based vision，这里的视觉特征是指通过Vit得到的整张图片的特征吗？这部分特征是否经过了与文本的对齐呢？

Lin Weizhe · Answer 1 · Thu Jan 04 2024 14:41:40 GMT+0800 (China Standard Time)

你可以仔细读一下论文这部分是用ViT提取的global的整张图的特征（因此是一个），没有与文本对齐，而是直接和text features并列
后面9ROI才加上九个bounding box用ViT提取的features