caiyuanhao1998 / MST-plus-plus

"MST++: Multi-stage Spectral-wise Transformer for Efficient Spectral Reconstruction" (CVPRW 2022) & (Winner of NTIRE 2022 Spectral Recovery Challenge) and a toolbox for spectral reconstruction

Home Page:https://arxiv.org/abs/2204.07908

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

MST++和Restormer的区别

madfff opened this issue · comments

MST++仅使用1/10的参数量取得比Restormer更好的效果,我看了下代码觉得二者的模型架构差不多,请问一下是哪一步修改产生如此巨大的改进吗?

我对比了下代码,区别主要有

  1. Restormer使用门控FFN,MST++取消了门控
  2. 和Restormer相比,MST++去掉了通道注意力模块(Spectral-wise Multi-head Self-Attention) 中产生Q,K,V向量的DW Conv
  3. 和Restormer相比,MST++在通道注意力模块增加了卷积位置编码
  4. MST++去掉了通道注意力模块的LayerNorm

朋友,你去看arxiv挂出来的时间,我们比Restormer更早问世,只是Restormer更有名罢了
我们的MST是2021年11月15号:https://arxiv.org/abs/2111.07910
Restormer是2021年11月18号:https://arxiv.org/abs/2111.09881
所以并不是,我们改进Restormer,你这个理解就不对

抱歉没有注意到这一点。但这两个模型比较相似,我只是不确定自己是否忽略了什么改进的地方使得MST++效果如此优异。

什么叫做“改进”,改进就是在一个已有的东西基础之上做的改变,取得更好,这叫“改进”。

什么叫已有的东西?就是在你开始“改进”之前已存在并获得的东西。

你之所以认为是“改进”,是因为你把Restormer先入为主了,你先接受了这样一个东西,是你的主观感受。

然而,客观上说,我们的方法早于Restormer之前公开。这也就意味着,我们在做MST的时候,是独立做出来的。

那也就是说,这和Restormer是两个完全不同的东西,真要按时间上来看,Restormer理论上存在“改进”MST的可能,而MST不存在“改进”Restormer的可能。

然而,你却非常固执,强行将自己的主观感受强加在客观事实上,那这就说不通了。

我的用词有误,不应该用改进一词,我并没有质疑你的工作的创新性和独立性。
只是你论文中和Restormer比较了,最近我在复现Restormer,只是想了解一下两个模型之间有什么不同的地方,使得MST使用少量参数的情况下取得更好的效果,看看是不是Restormer哪个地方设计的不妥。

不同的地方,我们没有比较过。

既然我们的方法更省并且更好,不如直接将Restomer抛弃掉,follow MST。

鲜花没有绿叶的衬托会黯然失色的。

好的,我后续会进行尝试。感谢你的耐心。

嗯嗯,可以的,我们这个repo里面包含了众多的复原模型,是一个优质的baseline