woodfrog / maptracker

Code for paper "MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping", ECCV 2024

Home Page:https://map-tracker.github.io/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

请问一下,为啥不用StreamMapNet的无限时序的训练方式(应该是40个关键帧)?

hungsing92 opened this issue · comments

主要有两个原因。

  • 首先是StreamMapNet用的那种连续从一个sequence里sample frame的方式没法在训练时控制两帧之间的间隔,两帧之间间隔太小的话,模型能学的temporal bias会太简单 (比如直接把上一帧结果给transform到下一帧,其他的什么也不做,大部分情况下loss也能很小),导致temporal modeling效果不好。

  • 其次是希望通过多帧training学到更好的long-term temporal modeling(参考MOTR),包括memory fusion也是用了多帧的history。这些用StreamMapNet那种sampling data的方式都比较难实现。

但是这种多帧训练相比StreamMapNet那种方式需要更多显存,如果用的gpu显存不大的话(比如我每张卡只有24G),batch size上就比较受限。