如何评价最新的Mamba论文MambaOut?

发布时间:
2024-05-21 16:56
阅读量:
9

MambaOut的作者,来回答一下。首先非常感谢大家对论文的关注,希望论文的内容能给大家带来一点点启发。论文我就不详细解读哈,论文写得还算比较逻辑清晰和易懂。想简单跟大家交流下。


关于论文的目的:论文目的是要验证视觉任务中的Mamba概念,不是为了发明新模型架构去刷点,重点在“Conceptual discussion”章节。基于此目的,我们要构造的MambaOut模型力求简单,token mixer就一层简单的7x7 depthwise convolution,论文里提到Gated CNN block的时候也都cite了16年第一个发明Gated CNN的那篇文章。


关于论文的名字:MambaOut是用来形容我们构造的模型,不是我们要表达的观点,我们要表达的观点是论文的Hypothesis 1和Hypothesis 2。还有MambaOut模型名字的credit来自于科比,虎扑JRs和知乎知友,以及实验室的Xingyi同学也向我推荐这个名字。并且MambaOut形容论文中的模型非常贴切。之前的论文有SSM的模型被叫做Mamba模型,那我们论文把SSM去掉构造的模型叫做MambaOut,非常贴切,不是硬凑。外国研究者也经常在模型名字上体现点幽默,Allen AI的预训练语言模型叫做Elmo,是《芝麻街》人物,谷歌就凑出BERT,还是芝麻街人物,但能看出怎么凑出来缩写而成。后面就引出一大堆芝麻街人物名字的模型。谷歌还有个模型叫Big Bird (也是芝麻街人物),但我想不通通过什么逻辑得到的。大模型时代就不说了,一大堆动物名字,大部分没有逻辑,直接安上。


关于GiHub Issues:大家都好有幽默感,向大家学习。科研确实比较辛苦,幽默能调解下生活。大家可以畅所欲言,我自己甄别哪些是技术问题回答issue就好。还有Github除了Issues板块,还有Discussions板块,那个更接近于论坛,也可以在那里发。Issues有谣言说论文图四那个潦草小狗是余华老师的头像,我来澄清一下,那不是谣言,确实是哈哈。高中读过余华老师的《活着》,B站上也看了很多余华老师幽默的视频,很喜欢余华老师。


关于Visual Mamba的研究:Issue中有提到这篇文章会不会对正在进行Visual Mamba的同学产生影响。我觉得不会有什么影响,不用担心。我们的Hypotheis 2说了detection和segmeantion虽然不需要casual token mixing,但它们属于long-sequence tasks,是存在利大于弊的情况的,所以我们说有价值进一步探索Mamba在detection和segmentaiton上的应用。同学们写Visual Mamba论文时突出efficiently processing long sequences的优点,并在detection和segmeantion上超过MambaOut,这样应该有帮助。如果我审稿有机会碰到,我会客观地力所能及地打出认可分数。祝同学们论文顺利,毕业顺利,找工作顺利。


最后再次谢谢大家对论文的关注,如果我们的论文能给大家带来一点点启发我就心满意足。

END