wangyuxinwhy / uniem

unified embedding model

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

文本分类中的acc是验证集上的结果还是测试集上的结果呢?

graciechen opened this issue · comments

commented

rt

可以查看这个文件,每个任务的选择会根据数据集来确定 https://github.com/wangyuxinwhy/uniem/blob/main/mteb-zh/mteb_zh/tasks.py

大部分都是 validation ,少部分是 test

不过这个影响不大,因为 MTEB 的评测,不会使用 validation 做超参数的优化

训练的时候看起来没有取训练集,只是确保了mteb-zh和训练数据集不交叉,没有考虑在其他数据集上评测数据污染的问题吗

考虑到了,评测数据集是几个句子分类数据集和 T2Ranking 数据集。对于句子分类数据集来说,m3e 训练数据的构建过程是不会使用到标签信息的,只会使用文本,不存在污染问题。T2Ranking 数据集也没有加入到 m3e 的训练集中,也不存在污染问题。