详细内容或原文请订阅后点击阅览
挑战VIT
在Convnext Architecturethe之后的CNN上的Pytorch实施,VIT首先出现在数据科学方面。
来源:走向数据科学VIT(Vision Transformer)的发明使我们认为CNN已过时。 但这真的是真的吗?
人们普遍认为,VIT的令人印象深刻的性能主要来自其基于变压器的建筑。但是,梅塔的研究人员认为这不是完全正确的。如果我们仔细研究体系结构设计,VIT不仅会引入网络结构,而且引入了模型配置。 Meta的研究人员认为,也许不是使VIT优越的结构,而是其配置。为了证明这一点,他们试图将VIT配置参数应用于2015年的Resnet体系结构。
- 他们认为论文是正确的。
在本文中,我将谈论Convnext,该论文最初是在Liu等人撰写的题为“ 2020年代Convnet”的论文中提出的。 [1]早在2022年。在这里,我还将尝试与Pytorch从头开始实现它,以便您可以更好地了解原始Resnet所做的更改。实际上,实际的Convnext实现可在其GitHub存储库中获得[2],但我发现它太复杂了,无法按线解释。因此,我决定自己写下它,以便我可以用自己的风格来解释它,我相信这对初学者更友好。免责声明,我的实施可能无法完美地复制原始版本,但我认为将我的代码视为学习资源仍然很好。因此,阅读我的文章后,我建议您检查原始代码,特别是如果您打算将Convnext用于您的项目。
2020年代的convnet 等。超参数调谐
作者在研究中基本上所做的是重新网络模型的高参数调整。一般而言,他们进行了五个方面的实验:宏设计,重新启用,倒置瓶颈,大内核和微型设计。我们可以在下图中看到有关这些方面的实验结果。
宏设计 resnext 倒瓶颈nn
x