基于变换的层可提高 CNN 效率和准确性,并应用于计算机视觉

开创性的研究引入了基于变换的层作为一种新方法来提高卷积神经网络 (CNN),特别是残差网络 (ResNets) 在计算机视觉领域的效率和准确性,可能会彻底改变...

来源:英语研究

基于变换的层提升了 CNN 的效率和准确性,计算机视觉应用

发布于 2024 年 7 月 5 日星期五 你的脸很熟悉,但眼睛,眼睛却泄露了一切 👀 | Dunk 🐝 在 Flickr 上 Dunk 🐝 在 Flickr 上

人工智能 (AI) 和机器学习的进步极大地重塑了计算机视觉的格局,卷积神经网络 (CNN) 站在这一转变的最前沿。一篇新颖的研究论文介绍了一种突破性的方法,可以使 CNN,尤其是残差网络 (ResNets) 更高效、更准确。这项研究由 Hongyi Pan 及其同事撰写,揭示了基于变换的感知层,它是 CNN 中使用的传统 Conv2D 层的计算量更小的替代方案。

这种创新方法的核心在于在神经网络层内实现正交变换,即离散余弦变换 (DST)、阿达玛变换 (HT) 和双正交块小波变换 (BWT)。通过利用卷积定理,这些层使用简单的元素乘法在变换域中执行卷积滤波,从而显著减少所需的参数和乘法运算的数量。这种新方法不仅提高了效率,而且还显示出可以提高 ResNets 在 ImageNet-1K 等基准图像分类任务上的准确性。

这些基于变换的层的突出特点之一是它们对空间位置和通道的特异性。传统的 Conv2D 层缺乏这种特异性,常常导致不同空间上下文的特征提取出现冗余和效率低下。所提出的模型通过针对位置和通道来解决这个问题,确保其卷积运算更加定制化和高效。

作者:Hongyi Pan、Emadeldeen Hamdan、Xin Zhu、Salih Atici、Ahmet Enis Cetin

标签:计算机科学 计算机科学

继续阅读