huawei-noah / Pretrained-Language-Model

Pretrained language model and its related optimization techniques developed by Huawei Noah's Ark Lab.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Wukong token-wise 交互的模型图文相似性区别度较小?

zyx1213271098 opened this issue · comments

commented

作者您好,我用同样的图文输入,试验了一下wukong_vit_b和wukong_vit_b_g两个模型,相似度结果是wukong_vit_b:[0.0855, 0.0848, 0.0854, 0.0881],wukong_vit_b_g:[0.0521, 0.0429, 0.0910, 0.1226],gt是index=3的位置,结果未作softmax。
wukong_vit_b的结果在小数点后3位才能体现出来,而wukong_vit_b_g区分性反而好一些,这样看token-wise好像并没有起到很好的效果。请问,你们那边实验的也是这样的吗?

commented

我也遇到这个问题了,请问你解决了吗?