MST++和Restormer的区别

Question

MST++和Restormer的区别

madfff opened this issue 2 years ago · comments

madfff commented 2 years ago

MST++仅使用1/10的参数量取得比Restormer更好的效果，我看了下代码觉得二者的模型架构差不多，请问一下是哪一步修改产生如此巨大的改进吗？

我对比了下代码，区别主要有

Restormer使用门控FFN，MST++取消了门控
和Restormer相比，MST++去掉了通道注意力模块(Spectral-wise Multi-head Self-Attention) 中产生Q,K,V向量的DW Conv
和Restormer相比，MST++在通道注意力模块增加了卷积位置编码
MST++去掉了通道注意力模块的LayerNorm

Yuanhao Cai · Answer 1 · Thu May 05 2022 10:41:15 GMT+0800 (China Standard Time)

朋友，你去看arxiv挂出来的时间，我们比Restormer更早问世，只是Restormer更有名罢了
我们的MST是2021年11月15号：https://arxiv.org/abs/2111.07910
Restormer是2021年11月18号：https://arxiv.org/abs/2111.09881
所以并不是，我们改进Restormer，你这个理解就不对

madfff · Answer 2 · Thu May 05 2022 10:55:23 GMT+0800 (China Standard Time)

抱歉没有注意到这一点。但这两个模型比较相似，我只是不确定自己是否忽略了什么改进的地方使得MST++效果如此优异。

Yuanhao Cai · Answer 3 · Thu May 05 2022 11:03:17 GMT+0800 (China Standard Time)

什么叫做“改进”，改进就是在一个已有的东西基础之上做的改变，取得更好，这叫“改进”。

什么叫已有的东西？就是在你开始“改进”之前已存在并获得的东西。

你之所以认为是“改进”，是因为你把Restormer先入为主了，你先接受了这样一个东西，是你的主观感受。

然而，客观上说，我们的方法早于Restormer之前公开。这也就意味着，我们在做MST的时候，是独立做出来的。

那也就是说，这和Restormer是两个完全不同的东西，真要按时间上来看，Restormer理论上存在“改进”MST的可能，而MST不存在“改进”Restormer的可能。

然而，你却非常固执，强行将自己的主观感受强加在客观事实上，那这就说不通了。

madfff · Answer 4 · Thu May 05 2022 11:33:23 GMT+0800 (China Standard Time)

我的用词有误，不应该用改进一词，我并没有质疑你的工作的创新性和独立性。
只是你论文中和Restormer比较了，最近我在复现Restormer，只是想了解一下两个模型之间有什么不同的地方，使得MST使用少量参数的情况下取得更好的效果，看看是不是Restormer哪个地方设计的不妥。

Yuanhao Cai · Answer 5 · Thu May 05 2022 11:51:37 GMT+0800 (China Standard Time)

不同的地方，我们没有比较过。

既然我们的方法更省并且更好，不如直接将Restomer抛弃掉，follow MST。

鲜花没有绿叶的衬托会黯然失色的。

madfff · Answer 6 · Thu May 05 2022 13:59:36 GMT+0800 (China Standard Time)

好的，我后续会进行尝试。感谢你的耐心。

Yuanhao Cai · Answer 7 · Thu May 05 2022 14:44:41 GMT+0800 (China Standard Time)

嗯嗯，可以的，我们这个repo里面包含了众多的复原模型，是一个优质的baseline