稳健性对于在实际应用中部署深度学习模型至关重要。自 2020 年代推出以来,视觉变换器 (ViT) 在各种视觉任务中表现出强大的稳健性和最先进的性能,优于传统 CNN。大核卷积的最新进展重新引起了人们对 CNN 的兴趣,表明它们可以匹敌或超过 ViT 性能。然而,这篇文章《探索稳健性:大核卷积网络与卷积神经网络 CNN 和视觉变换器 ViT 的比较》首先出现在 AI Quantum Intelligence 上。
Perception-Inspired Graph Convolution for Music Understanding Tasks
本文讨论了 MusGConv,一种用于符号音乐应用的感知启发式图卷积块。简介在音乐信息研究 (MIR) 领域,理解和处理乐谱的挑战不断被引入新方法和新途径。最近,许多基于图的技术已被提出,作为针对音乐理解任务的一种方式,例如语音分离、节奏检测、作曲家分类和罗马数字分析。这篇博文涵盖了我最近的一篇论文,其中我介绍了一种名为 MusGConv 的新图卷积块,专门用于处理乐谱数据。MusGConv 利用音乐感知原理来提高应用于音乐理解任务的图神经网络中图卷积的效率和性能。理解问题 MIR 中的传统方法通常依赖于音乐的音频或符号表示。虽然音频可以捕捉随时间变化的声波强度,但 MIDI 文件或乐谱等符号
Convolutional Neural Networks (CNNs) Explained
在人工智能和机器学习领域,卷积神经网络 (CNN) 已成为图像识别、处理和分类的强大工具。它们独特的架构和学习空间层次的能力使它们特别适合处理涉及视觉数据的任务。在这篇博文中,我们将深入探讨 CNN 的复杂性、其组件及其应用。什么是卷积神经网络?卷积神经网络 (CNN) 是一类深度神经网络,特别适合分析视觉图像。受动物视觉皮层的启发,CNN 旨在自动和自适应地学习空间 […]
Advantages of tree architectures over Convolutional Networks: A Performance Study
以基于树的架构为中心的最新 AI 研究为训练人工神经网络开辟了新的视角。
CNN Explainer: Learning Convolutional Neural Networks with Interactive Visualization
CNN Explainer 紧密集成了总结 CNN 结构的模型概述和按需,动态的可视化解释视图,帮助用户理解 CNN 的底层组件。通过跨抽象层次的平滑过渡,我们的工具使用户能够检查低级数学运算和高级模型结构之间的相互作用。
Do Vision Transformers See Like Convolutional Neural Networks?
到目前为止,卷积神经网络 (CNN) 一直是视觉数据的实际模型。最近的研究表明,(Vision) Transformer 模型 (ViT) 可以在图像分类任务上实现相当甚至更优异的性能。这提出了一个核心问题:Vision Transformer 如何解决这些任务?它们是像卷积网络一样工作,还是学习完全不同的视觉表示?通过分析 ViT 和 CNN 在图像分类基准上的内部表示结构,我们发现这两种架构之间存在显着差异,例如 ViT 在所有层上都有更统一的表示。我们探索了这些差异是如何产生的,发现了自我注意力所起的关键作用,它可以实现全局信息的早期聚合,以及 ViT 残差连接,它可以将特征从较低层强烈
How Graph Neural Networks (GNN) work: introduction to graph convolutions from scratch
从零开始使用图神经网络,并在 Pytorch 中实现图卷积层
Convolutional LSTM for spatial forecasting
在预测空间确定的现象(例如天气或电影中的下一帧)时,我们希望对时间演变进行建模,理想情况下使用递归关系。同时,我们希望有效地提取空间特征,这通常是使用卷积滤波器完成的。理想情况下,我们将拥有一个既是循环又是卷积的架构。在这篇文章中,我们使用 torch 构建了一个卷积 LSTM。
Understanding the receptive field of deep convolutional networks
关于为什么检查感受野很重要以及感受野如何影响深度卷积网络的设计选择的直观指南。
摘要:强大的计算平台与深度学习架构的结合带来了解决许多传统计算机视觉问题的新方法,以便自动解释大型且复杂的地理空间数据。随着数据的广泛获取和无人机系统的使用越来越多,此类任务尤为重要。本文档介绍了一个工作流程,利用 CNN 和 GPU 对 UAS 图像进行自动像素级分割,以加快图像处理速度。在多核 GPU 上探索基于 GPU 的计算和并行化,以减少开发时间,减少对大量模型训练的需求,并促进任务关键信息的利用。比较不同系统(单、虚拟、多 GPU)之间的 VGG-16 模型训练时间,以研究每个平台的功能。 CNN 结果显示,应用于地面实况数据时,准确率为 88%。将 VGG-16 模型与 GPU
Variational convnets with tfprobability
在贝叶斯神经网络中,层权重是分布,而不是张量。使用 tfprobability(TensorFlow Probability 的 R 包装器),我们可以构建具有概率层的常规 Keras 模型,从而“免费”获得不确定性估计。在这篇文章中,我们展示了如何定义、训练和从概率卷积神经网络中获得预测。
Yann LeCun: Deep Learning, Convolutional Neural Networks, and Self-Supervised Learning
Yann LeCun 是深度学习之父之一,深度学习是人工智能领域最近的一场革命,它以机器从数据中学习的可能性吸引了全世界的注意力。他是纽约大学的教授,Facebook 的副总裁兼首席人工智能科学家,并因其在深度学习方面的工作而共同获得图灵奖。他最为人所知的身份可能是卷积神经网络的创始人,尤其是其在光学字符识别方面的早期应用。本次对话是人工智能播客的一部分。如果您想了解有关此播客的更多信息,请访问 https://lexfridman.com/ai 或在 Twitter、LinkedIn、Facebook、Medium 或 YouTube 上与 @lexfridman 联系,您可以在那里观看这些
Understanding Convolutional Neural Networks (CNN) with an example
完成 Coursera 深度学习专业课程 #4 后,我想写一个简短的总结来帮助大家理解/复习卷积神经网络 (CNN) 的概念。让我们通过一个例子来理解 CNN - 图 1。CNN 示例 - 来源:Coursera DL Specialization假设您有一个 32x32 的图像,其中包含从 0 到 10 的数字,具有 3 个通道 (RGB)。您将它通过第一个卷积层 (CL1) 中大小为 f 的过滤器。过滤器的输出图像的大小是多少?输出图像的大小通过以下公式计算:来源:Medium 在我们的例子中,假设填充为 0 且步幅为 1。上述公式得出图像的高度和宽度的输出大小均为 28x28。好吧,这是
A very good read to understand Convolutional Neural Networks
我将对此进行总结,并随着时间的推移在其上添加更多细节,但与此同时,我强烈建议您浏览此链接 :)https://www.analyticsvidhya.com/blog/2017/06/architecture-of-convolutional-neural-networks-simplified-demystified/
IEEE Transactions on Artificial Intelligence, Volume 6 Issue 9, September 2025
1)对诊断性微观成像的方式,挑战,分类学和未来的宫颈异常检测和未来方向的全面调查:Anindita Mohanta,Sourav Dey Roy,Niharika Niharika Nath Nath,Abhijit Datta,Mrinal Kanti Bhowmikpages,Mrinal Kanti Bhowmikpages:2354-2354 -2354 -2354 -2354 -2354将分析模型整合到深层神经网络中:数据融合透视图:Erfaan Rezvanfar,Jing Wang,Jing Wang,Clarence W. de Silvapages:2384-23943)实现
Deep learning tool sets benchmark for accurate rice panicle counting across growth stages
通过整合大内核卷积块和新的损失函数,Lnnket有效地解决了诸如重叠目标,注释偏差和跨生长阶段的圆锥体结构的可变性之类的挑战。该模型在无人机图像和多个农作物数据集上进行了测试,显示出卓越的性能和鲁棒性,为精确农业和作物提供了高通量解决方案。
Ambisonics Super-Resolution Using A Waveform-Domain Neural Network
Ambisonics是描述声场的空间音频格式。一阶Ambisonics(FOA)是一种流行的格式,仅包括四个通道。这种有限的频道计数是以空间精度为代价的。理想情况下,人们将能够在没有限制的情况下采用FOA格式的效率。我们设计了一个由数据驱动的空间音频解决方案,该解决方案保留了FOA格式的效率,但可实现超过常规渲染器的质量。利用完全卷积的时间域音频神经网络(Conv-Tasnet),我们创建了一个解决方案,该解决方案采用FOA输入并提供…
Soft Computing, Volume 29, Issue 9-10, May 2025
1) Graph-induced topological space: from topologies to separation axiomsAuthor(s): Quang-Thinh Bui, Thanh Nha Nguyen, Bay VoPages: 4301 - 43162) Exploiting the geometry of heterogeneous networks: a case study of the Indian stock marketAuthor(s): Pawanesh, Charu Sharma, Niteesh SahniPages: 4317 - 433