文本分类中的acc是验证集上的结果还是测试集上的结果呢？

Question

graciechen opened this issue a year ago · comments

rt

yuxin.wang · Answer 1 · Tue Jul 11 2023 19:01:42 GMT+0800 (China Standard Time)

可以查看这个文件，每个任务的选择会根据数据集来确定 https://github.com/wangyuxinwhy/uniem/blob/main/mteb-zh/mteb_zh/tasks.py

大部分都是 validation ，少部分是 test

不过这个影响不大，因为 MTEB 的评测，不会使用 validation 做超参数的优化

andyfeih · Answer 2 · Wed Jul 26 2023 14:12:38 GMT+0800 (China Standard Time)

训练的时候看起来没有取训练集，只是确保了mteb-zh和训练数据集不交叉，没有考虑在其他数据集上评测数据污染的问题吗

yuxin.wang · Answer 3 · Wed Jul 26 2023 16:05:21 GMT+0800 (China Standard Time)

考虑到了，评测数据集是几个句子分类数据集和 T2Ranking 数据集。对于句子分类数据集来说，m3e 训练数据的构建过程是不会使用到标签信息的，只会使用文本，不存在污染问题。T2Ranking 数据集也没有加入到 m3e 的训练集中，也不存在污染问题。