question
ljingv opened this issue · comments
“Our experi- ments show that MixTraining can appreciably improve the performance of leading object detectors such as Faster R-CNN [24] with a ResNet-50 [13] backbone (from 41.7 mAP to 44.0 mAP) and Cascade R-CNN [1] with the Swin-Transformer [22] backbone (from 50.9 mAP to 52.8 mAP).”
1.usually,the map of faster-rcnn-r50 map is 36.5, so what's the difference?
"All the models run on 32×Nvidia V100."
- 32 means 32G or 4x8?
- 180K means how much epochs?
32 是32张卡吧。
代码里写了每卡2张图,因此batchsize=32*2=64,
根据iters * batchsize = epochs * num_images
估算:
epochs = 180k * (32*2)/ 118k = 98
因此180K对应的schedule是 8x
那720K岂不是,,,,32x
? 不知道推错了没有,但愿能解答楼主的问题。
顺便借楼问问,论文为何没有像一般的目标检测论文一样,报告AP_90, AP_s/m/l 的实验结果
你没算错,baseline最长跑了384epoch...但是这个时候其实已经overfit了。
顺便借楼问问,论文为何没有像一般的目标检测论文一样,报告AP_90, AP_s/m/l 的实验结果
这个没明白是啥意思,一般不会报AP_90吧,一般都是AP_50,AP_75。AP_s/m/l倒是确实没报。
十分感谢作者深夜解答!我担心的点在于数据集中的大多数未打标签的目标都是小目标,生成的强标签势必会多很多小目标的标注,这样会不会导致学生网络误推理出很多小目标(数据集中未标注的),导致小目标的假阳性很高,进而影响AP_s
我不太确定,明天看下实验记录再回复你。
万分感谢!
确实有一些差别。
比如
frcnn_swinsmall上s,m,l的提升分别是1.1,1.9,1.7,cascasde_swinsmall上的提升是
1.7,2.5,2.4。
效果也很好!感谢!