关注渠道的关注|挤压和激发

使用pytorch在频道的关注下,将挤压和激发模块应用在resnext上|首先,挤压和激发出现在数据科学方面。

来源:走向数据科学

当我们谈论计算机视觉中的注意力时,您可能首先想到的一件事是视觉变压器(VIT)体系结构中使用的一件事。实际上,这并不是我们对于图像数据所拥有的唯一注意力机制。实际上,还有另一个称为Squeeze and兴奋网络(SENET)。如果VIT中的注意力在空间上运行,即将权重分配给图像的不同斑块,则SENET中提出的注意机制以通道方式运行,即将权重分配给不同的通道。  - 在本文中,我们将讨论挤压和激发体系结构的工作原理,如何从头开始实施它以及如何将网络集成到Resnext模型中。

挤压和激发模块

senet,最初是在Hu等人的题为“挤压和兴奋网络”的论文中提出的。 [1]不是像VGG,Inception或Resnet这样的独立网络。取而代之的是,它实际上是要放置在现有网络上的基础。在基于CNN的模型中,我们假设在空间上彼此接近的像素具有很高的相关性,这就是我们采用小型内核来捕获这些相关性的原因。这种假设基本上是CNN的电感偏差。另一方面,Senet引入了一种新的归纳偏见,在该偏见中,作者认为每个图像渠道在预测特定类别方面都有不同的贡献。通过将SE模块应用于CNN,该模型不仅依赖于空间模式,而且还捕获了每个通道的重要性。为了更好地说明这一点,我们可以想到火的图像,从理论上讲,红色通道对最终预测的贡献比蓝色和绿色通道更高。

挤压网络 等。 归纳偏见 挤压 激发 f_sq f_ex f_scale f_tr
图1。挤压和激发模块的结构[1]。
全球信息嵌入 h W H×W
图2。SE模块中全局平均合并机制的数学表达[1]。
Δ