关于AIFI层的设计、IOU感知查询、关于解码器的设计等存在一些疑惑
lcx-defender opened this issue · comments
lcx_defender commented
1.关于AIFI层的设计
假设现在对极小目标进行检测(大小只占整个图片1%左右),如果去掉AIFI层,对于小目标检测影响大不大?
2.IOU感知查询
Detr存在的问题是object queries是随机的值,导致训练时间长,难以收敛等,IOU感知查询本质是对对象查询初始化的优化处理,消融实验表明IOU感知查询确实有效果,那么还有别的更好都地设计么,如果将AIFI层的输出,选择前K个“有用的小格子”作为对象查询向量的初始化,会不会有更好的效果?
3.关于解码器的设计
4层解码器和6层解码器相比,对于检测效果来说差别不是很大,但是推理速度有差别,为什么?是因为4层足够提取有用信息么?
4.现有的RT-DETR的架构设计,计算量的瓶颈在哪里,是骨干网还是特征融合模块的设计,还是最后的解码器?
5.在相同的软硬件条件下,YOLOV8l在我的目标检测数据集上效果不如rtdetr-l,但是推理速度要快很多,为什么?这个和论文里面NMS拖慢目标检测的速度好像不符合啊
6.RT-DETR-HGNetv2-X的pt权重文件哪里可以获取?
lyuwenyu commented
- 具体没单独关注 需要试验验证,( 高层次语义关系特征或许是有助于小物体检测
- 需要先定义什么是
“有用的小格子”
- 试验结果证明是这样的 ( 有边际效应
- 现在相对均衡,主要耗时在 骨干网 解码器
- 请先理解我们在文章中定义的端到端速度 ( 保证是在竞品报告的coco上精度的条件下的超参数去测速度
- 暂时没有 有需要可以计划转一个