挑战VIT XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

挑战VIT

2025年5月6日 01:44 33 Comments

在Convnext Architecturethe之后的CNN上的Pytorch实施，VIT首先出现在数据科学方面。

来源:走向数据科学

VIT（Vision Transformer）的发明使我们认为CNN已过时。但这真的是真的吗？

人们普遍认为，VIT的令人印象深刻的性能主要来自其基于变压器的建筑。但是，梅塔的研究人员认为这不是完全正确的。如果我们仔细研究体系结构设计，VIT不仅会引入网络结构，而且引入了模型配置。 Meta的研究人员认为，也许不是使VIT优越的结构，而是其配置。为了证明这一点，他们试图将VIT配置参数应用于2015年的Resnet体系结构。

- 他们认为论文是正确的。

在本文中，我将谈论Convnext，该论文最初是在Liu等人撰写的题为“ 2020年代Convnet”的论文中提出的。 [1]早在2022年。在这里，我还将尝试与Pytorch从头开始实现它，以便您可以更好地了解原始Resnet所做的更改。实际上，实际的Convnext实现可在其GitHub存储库中获得[2]，但我发现它太复杂了，无法按线解释。因此，我决定自己写下它，以便我可以用自己的风格来解释它，我相信这对初学者更友好。免责声明，我的实施可能无法完美地复制原始版本，但我认为将我的代码视为学习资源仍然很好。因此，阅读我的文章后，我建议您检查原始代码，特别是如果您打算将Convnext用于您的项目。

2020年代的convnet 等。

超参数调谐

作者在研究中基本上所做的是重新网络模型的高参数调整。一般而言，他们进行了五个方面的实验：宏设计，重新启用，倒置瓶颈，大内核和微型设计。我们可以在下图中看到有关这些方面的实验结果。

宏设计 resnext 倒瓶颈 nn x

初学者认为 2020 研究参数原始 Convnext 论文设计新网络 VIT 方面正确的实验结果自己的变压器提出的结构设计基本上实际的代码研究人员无法配置网络结构体系结构网络模型 Resnet 实际上引入模型的

挑战VIT

超参数调谐

其他外部链接

Tags

XiaoMi-AI