Wukong token-wise 交互的模型图文相似性区别度较小？

Question

Wukong token-wise 交互的模型图文相似性区别度较小？

zyx1213271098 opened this issue 2 years ago · comments

作者您好，我用同样的图文输入，试验了一下wukong_vit_b和wukong_vit_b_g两个模型，相似度结果是wukong_vit_b：[0.0855, 0.0848, 0.0854, 0.0881]，wukong_vit_b_g：[0.0521, 0.0429, 0.0910, 0.1226]，gt是index=3的位置，结果未作softmax。
wukong_vit_b的结果在小数点后3位才能体现出来，而wukong_vit_b_g区分性反而好一些，这样看token-wise好像并没有起到很好的效果。请问，你们那边实验的也是这样的吗？

douzi · Answer 1 · Wed Aug 03 2022 10:31:39 GMT+0800 (China Standard Time)

我也遇到这个问题了，请问你解决了吗？