MST++和Restormer的区别
madfff opened this issue · comments
MST++仅使用1/10的参数量取得比Restormer更好的效果,我看了下代码觉得二者的模型架构差不多,请问一下是哪一步修改产生如此巨大的改进吗?
我对比了下代码,区别主要有
- Restormer使用门控FFN,MST++取消了门控
- 和Restormer相比,MST++去掉了通道注意力模块(Spectral-wise Multi-head Self-Attention) 中产生Q,K,V向量的DW Conv
- 和Restormer相比,MST++在通道注意力模块增加了卷积位置编码
- MST++去掉了通道注意力模块的LayerNorm
朋友,你去看arxiv挂出来的时间,我们比Restormer更早问世,只是Restormer更有名罢了
我们的MST是2021年11月15号:https://arxiv.org/abs/2111.07910
Restormer是2021年11月18号:https://arxiv.org/abs/2111.09881
所以并不是,我们改进Restormer,你这个理解就不对
抱歉没有注意到这一点。但这两个模型比较相似,我只是不确定自己是否忽略了什么改进的地方使得MST++效果如此优异。
什么叫做“改进”,改进就是在一个已有的东西基础之上做的改变,取得更好,这叫“改进”。
什么叫已有的东西?就是在你开始“改进”之前已存在并获得的东西。
你之所以认为是“改进”,是因为你把Restormer先入为主了,你先接受了这样一个东西,是你的主观感受。
然而,客观上说,我们的方法早于Restormer之前公开。这也就意味着,我们在做MST的时候,是独立做出来的。
那也就是说,这和Restormer是两个完全不同的东西,真要按时间上来看,Restormer理论上存在“改进”MST的可能,而MST不存在“改进”Restormer的可能。
然而,你却非常固执,强行将自己的主观感受强加在客观事实上,那这就说不通了。
我的用词有误,不应该用改进一词,我并没有质疑你的工作的创新性和独立性。
只是你论文中和Restormer比较了,最近我在复现Restormer,只是想了解一下两个模型之间有什么不同的地方,使得MST使用少量参数的情况下取得更好的效果,看看是不是Restormer哪个地方设计的不妥。
不同的地方,我们没有比较过。
既然我们的方法更省并且更好,不如直接将Restomer抛弃掉,follow MST。
鲜花没有绿叶的衬托会黯然失色的。
好的,我后续会进行尝试。感谢你的耐心。
嗯嗯,可以的,我们这个repo里面包含了众多的复原模型,是一个优质的baseline