wangyuxinwhy / uniem

unified embedding model

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

请问这个进行文本检索的时候是用什么度量指标呢?cosine显示的结果都好高,0.85以上

Congcong-Song opened this issue · comments

度量指标,使用 cosine 是最佳的。

你说的 cosine 相似度都比较高这个问题,是真实存在的。

一个原因是不同使用场景中对于相似的定义是不同的,所以 M3E 给出的相似实在 “平均场景” 中给出的。另一个原因是,M3E 的模型校准本身确实不够好,余弦相似度为 0.85 不代表概率,只是一个相对的分数,M3E 的训练目标就是更相似的会 cosine 分值更高,但分数本身没有什么意义。

这一校准问题,主要是由于 Loss 选择的问题导致的,可以说是对比学习 Loss 的通病,CoSent 可能会好一些,也有可能是温度(0.01)太低了导致的.... 这部分我们只有初步的认识,后续的模型会考虑解决校准的问题。

如果在你的数据集上,M3E 没有好的表现,可以进一步沟通。

好的,感谢回复。在我的数据集上表现的还是可以的,比我自己训练出来的效果好。只是观察指标发现都偏高且没拉开距离,所以产生了这个疑问。