请问一下，为啥不用StreamMapNet的无限时序的训练方式（应该是40个关键帧）？

Question

hungsing92 opened this issue 4 months ago · comments

Jiacheng Chen · Answer 1 · Wed Apr 17 2024 07:26:44 GMT+0800 (China Standard Time)

主要有两个原因。

首先是StreamMapNet用的那种连续从一个sequence里sample frame的方式没法在训练时控制两帧之间的间隔，两帧之间间隔太小的话，模型能学的temporal bias会太简单 (比如直接把上一帧结果给transform到下一帧，其他的什么也不做，大部分情况下loss也能很小），导致temporal modeling效果不好。
其次是希望通过多帧training学到更好的long-term temporal modeling（参考MOTR），包括memory fusion也是用了多帧的history。这些用StreamMapNet那种sampling data的方式都比较难实现。

但是这种多帧训练相比StreamMapNet那种方式需要更多显存，如果用的gpu显存不大的话（比如我每张卡只有24G），batch size上就比较受限。