变换器关键词检索结果

探索稳健性:大型内核 ConvNets 与卷积神经网络 CNN 和视觉变换器 ViTs 的比较

Exploring Robustness: Large Kernel ConvNets in Comparison to Convolutional Neural Network CNNs and Vision Transformers ViTs

稳健性对于在实际应用中部署深度学习模型至关重要。自 2020 年代推出以来,视觉变换器 (ViT) 在各种视觉任务中表现出强大的稳健性和最先进的性能,优于传统 CNN。大核卷积的最新进展重新引起了人们对 CNN 的兴趣,表明它们可以匹敌或超过 ViT 性能。然而,这篇文章《探索稳健性:大核卷积网络与卷积神经网络 CNN 和视觉变换器 ViT 的比较》首先出现在 AI Quantum Intelligence 上。

大规模变换器模型的有效部署:可扩展和低延迟推理策略

Efficient Deployment of Large-Scale Transformer Models: Strategies for Scalable and Low-Latency Inference

将基于 Transformer 的模型扩展到超过 1000 亿个参数已在自然语言处理中取得突破性成果。这些大型语言模型在各种应用中都表现出色,但由于生成推理的顺序性,有效部署它们带来了挑战,其中每个标记的计算都依赖于前面的标记。这需要细致的并行布局和内存帖子《大规模 Transformer 模型的有效部署:可扩展和低延迟推理策略》首先出现在 AI Quantum Intelligence 上。

了解视觉变换器 (ViT):其表示的隐藏属性、见解和稳健性

Understanding Vision Transformers (ViTs): Hidden properties, insights, and robustness of their representations

我们研究 CNN 和 ViT 的学习视觉表征,例如纹理偏差、如何学习良好的表征、预训练模型的稳健性以及最终从训练过的 ViT 中出现的属性。

视觉变换器是否像卷积神经网络一样看?

Do Vision Transformers See Like Convolutional Neural Networks?

到目前为止,卷积神经网络 (CNN) 一直是视觉数据的实际模型。最近的研究表明,(Vision) Transformer 模型 (ViT) 可以在图像分类任务上实现相当甚至更优异的性能。这提出了一个核心问题:Vision Transformer 如何解决这些任务?它们是像卷积网络一样工作,还是学习完全不同的视觉表示?通过分析 ViT 和 CNN 在图像分类基准上的内部表示结构,我们发现这两种架构之间存在显着差异,例如 ViT 在所有层上都有更统一的表示。我们探索了这些差异是如何产生的,发现了自我注意力所起的关键作用,它可以实现全局信息的早期聚合,以及 ViT 残差连接,它可以将特征从较低层强烈

Sigmoid 自注意力的理论、分析和最佳实践

Theory, Analysis, and Best Practices for Sigmoid Self-Attention

*主要贡献者注意力机制是 Transformer 架构的关键部分。它是一种序列到序列的映射,可将每个序列元素转换为值的加权和。权重通常作为键和查询之间的点积的 softmax 获得。最近的研究探索了 Transformer 中 softmax 注意力机制的替代方案,例如 ReLU 和 S 型激活。在这项研究中,我们重新审视 S 型注意力机制并进行了深入的理论和实证分析。从理论上讲,我们证明具有 S 形注意力机制的变换器是通用函数逼近器,并且……

IEEE 模糊系统学报,第 33 卷,第 1 期,2025 年 1 月

IEEE Transactions on Fuzzy Systems, Volume 33, Issue 1, January 2025

1) 模糊深度神经网络学习在情绪分析中的特邀编辑专题作者:Gautam Srivastava、Chun-Wei Lin页数:1 - 22) Fcdnet:基于模糊认知的多模态情绪分析动态融合网络作者:Shuai Liu、Zhe Luo、Weina Fu页数:3 - 143) 多模态情绪分析的联合客观和主观模糊性去噪作者:Xun Jiang、Xing Xu、Huimin Lu、Lianghua He、Heng Tao Shen页数:15 - 274) 使用模糊深度神经网络学习探索情绪分析的多模态多尺度特征作者:Xin Wang、Jianhui Lyu、Byung-Gyu Kim、B. D. Pa

使用 CLIP 样式编码器进行零样本定位

Zero-Shot Localization with CLIP-Style Encoders

我们如何才能看到视觉编码器所看到的内容?Stephan Widua 在 Unsplash 上的照片想想您最喜欢的预训练视觉编码器。我假设您选择了 CNN(卷积神经网络)或 ViT(视觉变换器)的某种变体。编码器是将图像映射到 d 维向量空间的函数。在此过程中,图像被转换为​​特征图序列:作者提供的图片。特征图 (w × h × k) 可以被认为是收集的 k 维补丁嵌入的 2D 数组,或者等效地,具有 k 个通道 f₁, … fₖ 的粗略图像 (w × h)。CNN 和 ViT 都以各自的方式将输入图像转换为特征图序列。当图像穿过其层时,我们如何才能看到视觉编码器所看到的内容?零样本定位方法旨在

Depth Pro:不到一秒即可实现清晰的单目度量深度

Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

我们提出了零样本度量单目深度估计的基础模型。我们的模型 Depth Pro 合成了高分辨率深度图,具有无与伦比的清晰度和高频细节。预测是度量的,具有绝对尺度,而不依赖于元数据(例如相机内在函数)的可用性。而且该模型速度很快,在标准 GPU 上 0.3 秒内即可生成 225 万像素的深度图。这些特性是由许多技术贡献实现的,包括用于密集预测的高效多尺度视觉变换器、结合了……的训练协议

复杂与智能系统,第 10 卷,第 5 期,2024 年 10 月

Complex & Intelligent Systems, Volume 10, Issue 5, October 2024

1) 语音-视频双模态信号驱动的 3D 面部动画作者:纪学杰、廖舟舟……毛猛页数:5951 - 59642) 一种改进的果蝇优化算法与 Q 学习相结合,用于解决分布式置换流水线调度问题作者:赵才、吴良宏……张洪强页数:5965 - 59883) 足球 1 对 1 射门情况下的最佳决策战略框架:机器学习、基于理论的建模和博弈论的综合方法作者:杨凯文、藤井圭介页数:5989 - 60084) 针对混合整数变量的昂贵约束优化问题的种群状态驱动代理辅助差分进化算法作者:刘建胜、袁斌……邱浩波页数:6009 - 60305) 一种智能 MRI 辅助诊断和治疗系统基于超分辨率的骨肉瘤识别作者:许忠,方方苟

用于蛋白质序列设计的几何深度学习

Geometric deep learning for protein sequence design

使用 CARBonAra 进行序列预测的示意图。几何变换器对 β-内酰胺酶 TEM-1 酶(灰色)的序列空间进行采样,该酶与天然底物(青色)复合,以产生新的折叠良好且活性高的酶。图片来源:Alexandra Banbanaste (EPFL)。作者:Nik Papageorgiou 设计能够执行特定功能的蛋白质涉及理解和操纵其序列 […]

IEEE 人工智能汇刊,第 5 卷,第 8 期,2024 年 8 月

IEEE Transactions on Artificial Intelligence, Volume 5, Issue 8, August 2024

1) 时空变换器视觉对象跟踪的记忆提示作者:Tianyang Xu;Xiao-Jun Wu;Xuefeng Zhu;Josef Kittler页数:3759 - 37642) 神经符号人工智能的验证、确认、测试和评估调查作者:Justus Renkhoff;Ke Feng;Marc Meier-Doernberg;Alvaro Velasquez;Houbing Herbert Song页数:3765 - 37793) 使用图神经网络进行图摘要的综合调查作者:Nasrin Shabani;Jia Wu;Amin Beheshti;Quan Z. Sheng;Jin Foo;Venus Hagh

IEEE 神经网络和学习系统学报,第 35 卷,第 7 期,2024 年 7 月

IEEE Transactions on Neural Networks and Learning Systems, Volume 35, Issue 7, July 2024

1) 联邦学习中的隐私和稳健性:攻击与防御作者:Lingjuan Lyu、Han Yu、Xingjun Ma、Chen Chen、Lichao Sun、Jun Zhao、Qiang Yang、Philip S. Yu页数:8726 - 87462) 测量解缠:指标回顾作者:Marc-André Carbonneau、Julian Zaïdi、Jonathan Boilard、Ghyslain Gagnon页数:8747 - 87613) 深度强化学习中的探索:从单智能体到多智能体领域作者:Jianye Hao、Tianpei Yang、Hongyao Tang、Chenjia Bai、Jiny

IEEE 人工智能学报,第 5 卷,第 6 期,2024 年 6 月

IEEE Transactions on Artificial Intelligence, Volume 5, Issue 6, June 2024

1) 特邀编辑:非平稳数据的 AutoML作者:Ran Cheng、Hugo Jair Escalante、Wei-Wei Tu、Jan N. Van Rijn、Shuo Wang、Yun Yang页数:2456 - 24572) 用于异构遥感图像中无监督变化检测的自引导自动编码器作者:Jiao Shi、Tiancheng Wu、Alex Kai Qin、Yu Lei、Gwanggil Jeon页数:2458 - 24713) 用于实时追踪水污染的学习驱动动态多模态优化算法作者:Xuesong Yan、Xing Guo、Jin Chen、Chengyu Hu、Wenyin Gong、Liang

斯坦福 AI 实验室在 NeurIPS 2021 上的论文和演讲

Stanford AI Lab Papers and Talks at NeurIPS 2021

第三十五届神经信息处理系统会议(NeurIPS)2021 将于 12 月 6 日至 14 日以线上方式举办。我们很高兴与大家分享 SAIL 在主会议、数据集和基准测试轨道以及各种研讨会上展示的所有工作,您可以在下面找到论文、视频和博客的链接。我们 SAIL 社区中的一些成员还担任 12 月 13 日至 14 日举行的几场激动人心的研讨会的共同组织者,所以我们希望您能关注它们!欢迎直接联系联系作者和研讨会组织者,以了解斯坦福大学正在进行的工作!主会议通过将表示解码为输入来提高神经网络的组合性作者:Mike Wu、Noah Goodman、Stefano Ermon联系方式:wumike@stan

斯坦福 AI 实验室在 NeurIPS 2021 上的论文和演讲

Stanford AI Lab Papers and Talks at NeurIPS 2021

第三十五届神经信息处理系统会议(NeurIPS)2021 将于 12 月 6 日至 14 日以线上方式举办。我们很高兴与大家分享 SAIL 在主会议、数据集和基准测试轨道以及各种研讨会上展示的所有工作,您可以在下面找到论文、视频和博客的链接。我们 SAIL 社区的一些成员还担任 12 月 13 日至 14 日举行的几场激动人心的研讨会的共同组织者,所以我们希望您能关注它们!欢迎直接联系联系作者和研讨会组织者,以了解斯坦福大学正在进行的工作!主会议通过将表示解码为输入来提高神经网络的组合性作者:Mike Wu、Noah Goodman、Stefano Ermon联系方式:wumike@stanf