LinWeizheDragon / Retrieval-Augmented-Visual-Question-Answering

This is the official repository for Retrieval Augmented Visual Question Answering

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

FLMR中Feature-based Vison的一些问题

yjwang97 opened this issue · comments

屏幕截图 2024-01-04 111647
您好,我最近在尝试根据论文复现FLMR的代码,我注意到在论文的表二中使用了Feature-based vision,这里的视觉特征是指通过Vit得到的整张图片的特征吗?这部分特征是否经过了与文本的对齐呢?

你可以仔细读一下论文 这部分是用ViT提取的global的整张图的特征(因此是一个),没有与文本对齐,而是直接和text features并列
后面9ROI才加上九个bounding box用ViT提取的features