FLMR中Feature-based Vison的一些问题
yjwang97 opened this issue · comments
yjwang97 commented
Lin Weizhe commented
你可以仔细读一下论文 这部分是用ViT提取的global的整张图的特征(因此是一个),没有与文本对齐,而是直接和text features并列
后面9ROI才加上九个bounding box用ViT提取的features
This is the official repository for Retrieval Augmented Visual Question Answering
yjwang97 opened this issue · comments
你可以仔细读一下论文 这部分是用ViT提取的global的整张图的特征(因此是一个),没有与文本对齐,而是直接和text features并列
后面9ROI才加上九个bounding box用ViT提取的features