MendelXu / MixTraining

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

question

ljingv opened this issue · comments

“Our experi- ments show that MixTraining can appreciably improve the performance of leading object detectors such as Faster R-CNN [24] with a ResNet-50 [13] backbone (from 41.7 mAP to 44.0 mAP) and Cascade R-CNN [1] with the Swin-Transformer [22] backbone (from 50.9 mAP to 52.8 mAP).”

1.usually,the map of faster-rcnn-r50 map is 36.5, so what's the difference?

"All the models run on 32×Nvidia V100."

  1. 32 means 32G or 4x8?
  2. 180K means how much epochs?
commented

32 是32张卡吧。

代码里写了每卡2张图,因此batchsize=32*2=64,
根据iters * batchsize = epochs * num_images估算:
epochs = 180k * (32*2)/ 118k = 98
因此180K对应的schedule是 8x

那720K岂不是,,,,32x? 不知道推错了没有,但愿能解答楼主的问题。

commented

顺便借楼问问,论文为何没有像一般的目标检测论文一样,报告AP_90, AP_s/m/l 的实验结果

你没算错,baseline最长跑了384epoch...但是这个时候其实已经overfit了。

顺便借楼问问,论文为何没有像一般的目标检测论文一样,报告AP_90, AP_s/m/l 的实验结果

这个没明白是啥意思,一般不会报AP_90吧,一般都是AP_50,AP_75。AP_s/m/l倒是确实没报。

commented

十分感谢作者深夜解答!我担心的点在于数据集中的大多数未打标签的目标都是小目标,生成的强标签势必会多很多小目标的标注,这样会不会导致学生网络误推理出很多小目标(数据集中未标注的),导致小目标的假阳性很高,进而影响AP_s

我不太确定,明天看下实验记录再回复你。

commented

万分感谢!

确实有一些差别。
比如
frcnn_swinsmall上s,m,l的提升分别是1.1,1.9,1.7,cascasde_swinsmall上的提升是
1.7,2.5,2.4。

commented

效果也很好!感谢!