随着视觉变换器 (ViT) 的巨大成就,基于变换器的方法已成为解决各种计算机视觉任务的新范式。然而,最近的研究表明,与卷积神经网络 (CNN) 类似,ViT 仍然容易受到对抗性攻击。为了探索不同结构模型的共同缺陷,研究人员开始分析跨结构对抗性迁移能力,而这方面仍未得到充分研究。因此,在本文中,我们专注于 ViT 攻击,以提高基于变换器和基于卷积的模型之间的跨结构迁移能力。先前的研究未能彻底调查 ViT 模型内部组件对对抗性迁移能力的影响,导致性能较差。为了克服这个缺点,我们开展了一项激励研究,通过线性缩小 ViT 模型内部组件的梯度来分析它们对对抗性迁移能力的影响。基于这项激励研究,我们发现跳跃连接的梯度对迁移能力的影响最大,并相信来自更深块的反向传播梯度可以增强迁移能力。因此,我们提出了虚拟密集连接方法(VDC)。具体来说,在不改变前向传播的情况下,我们首先重构原始网络以添加虚拟密集连接。然后,在生成对抗样本时,我们通过虚拟密集连接反向传播更深层注意力图和多层感知器(MLP)块的梯度。大量实验证实了我们提出的方法优于最先进的基线方法,ViT模型之间的可迁移性提高了8.2%,从ViT到CNN的跨结构可迁移性提高了7.2%。
摘要近年来,变形金刚领导了自然语言处理的一场革命,而视觉变形者(VIT)承诺在计算机视觉中也这样做。广泛使用VIT的主要障碍是它们的计算成本。的确,给定图像分为一个贴片列表,vits计算每一层,每个贴片相对于所有其他贴片的注意力。在文献中,许多解决方案试图使用量化,知识蒸馏和输入扰动来降低注意力层的计算成本。在本文中,我们的目标是在这种情况下做出贡献。特别是,我们提出了一个使用加强学习来培训代理的框架,该框架是在培训VIT期间确定最不重要的补丁的代理商。一旦确定了此类斑块,AgentVit就将其删除,从而减少了VIT处理的斑块数量。我们的目标是减少VIT的训练时间,同时保持竞争性能。
本调查探讨了自主驾驶中视觉传播模型的适应,这是受自然语言处理成功启发的转变。超越了在诸如顺序图像过程和超过全球环境中超越卷积神经网络之类的任务中超越传统的经常性神经网络,正如复杂场景识别所证明的那样,变形金刚在计算机视觉中获得了吸引力。这些能力对于实时的自动驾驶至关重要,动态视觉场景处理。我们的表现提供了对自动驱动方面的视觉变压器应用的全面概述,重点是基础概念,例如自我注意力,多头关注和编码器解码器体系结构。我们涵盖了对象检测,分割,行人检测,车道检测等中的应用程序,以比较它们的建筑优点和局限性。该调查以未来的研究方向结束,高度照亮了视觉变形金刚在自主驾驶中的不断增长的作用。
扩散模型从噪声中创建数据(Song等,2020)。他们经过训练,可以将数据的向前路径逆转到随机噪声,因此,可以使用神经网络的近似和泛化特性,可用于生成训练数据中不存在的新数据点,但遵循训练数据的分布(Sohl-Dickstein等人。,2015年; Song&Eron,2020)。这种生成建模技术已被证明非常有效地对高维,感知数据(例如图像)进行建模(Ho等人,2020)。近年来,扩散模型已成为产生具有令人印象深刻概括能力的自然语言输入的高分辨率图像和视频的事实方法(Saharia等人,2022b; Ramesh等。,2022; Rombach等。,2022; Podell等。,2023; Dai等。,2023; Esser等。,2023; Blattmann等。,2023b; Betker等。,2023; Blattmann等。,2023a; Singer等。,2022)。由于其迭代性质和相关的计算成本以及推理期间的较长采样时间,对这些模型进行更多有效训练的制剂的研究和/或更快的采样速度有所增加(Karras等人,2023;刘等。,2022)。
摘要 - 阿尔茨海默氏症是一种随着时间的流逝而恶化并影响记忆,思维和行为的脑部疾病。阿尔茨海默氏病(AD)如果被诊断出来,可以治疗和治疗,从而减慢症状的进展并改善生活质量。在这项研究中,我们建议使用视觉变压器(VIT)和BI-LSTM处理MRI图像以诊断阿尔茨海默氏病。我们使用VIT从MRI提取特征,然后将其映射到特征序列。然后,我们使用BI-LSTM序列建模来保持相关特征之间的相互依赖性。此外,我们使用阿尔茨海默氏病神经成像倡议(ADNI)的数据评估了AD患者二元分类模型的性能。最后,我们对文献中其他深度学习模型进行了评估。所提出的方法在准确性,精度,F得分和回忆方面表现良好,以诊断AD。
抽象机器翻译在桥接语言障碍中起着至关重要的作用,但是产生适当的翻译仍然是一个挑战。增强学习技术与变压器模型的集成,以增强上下文相关翻译的产生。通过合并上下文策略梯度方法,一种考虑流利性和上下文的奖励功能,多代理强化学习,课程学习和交互式用户反馈,旨在提高机器翻译的质量。强化学习技术与变压器模型的集成提供了几种关键贡献。它使模型能够通过考虑源句子上下文,目标语言细节和用户偏好来优化翻译决策。拟议的奖励功能设计既包含传统的度量标准得分,又结合了上下文感知的指标,以促进流利性和连贯性。多代理强化学习增强了专门从事不同翻译方面的代理之间的协作。课程学习和用户反馈的互动学习有助于有效的培训和人为指导的微调。实验结果表明,与基线模型相比,翻译质量的显着改善。所提出的方法在评估指标(例如BLEU,流星,胭脂和TER)中获得了更好的分数。此外,定性分析强调了该模型在产生流利,准确和上下文相关的翻译方面的优势。总体而言,增强学习技术与变压器模型的集成在增强机器翻译系统方面有希望,使其更适应能力,以用户为中心,并且能够产生适当的上下文翻译。关键字1机器翻译,增强学习,变压器,交互式学习。
正向神经网络。•为了预见CNN或视觉变压器,我们通常会在监督分类问题上训练整个模型(即图像分类)•为了预识LLM,我们通常会训练整个模型,以无标记的句子的可能性。
本文介绍了一种利用深度学习模型(特别是视觉变换器 (ViT) 模型)进行情绪分类的新方法,用于分析脑电图 (EEG) 信号。我们的研究实施了一种双特征提取方法,利用功率谱密度和差分熵来分析 SEED IV 数据集。这种方法对四种不同的情绪状态进行了详细分类。最初设计用于图像处理的 ViT 模型已成功应用于 EEG 信号分析。它表现出色,测试准确率达到 99.02%,方差很小。值得注意的是,它在这方面的表现优于 GRU、LSTM 和 CNN 等传统模型。我们的研究结果表明,ViT 模型在准确识别 EEG 数据中存在的复杂模式方面具有很高的有效性。具体而言,该模型的准确率和召回率超过 98%,而 F1 分数估计约为 98.9%。该研究的结果不仅证明了基于变压器的模型在分析认知状态方面的有效性,而且还表明它们在改善人机交互系统方面具有巨大的潜力。
已显示出频率的方法,例如保守Q学习(CQL),对具有重置骨架的训练通才代理人有利。最近的视觉和自然语言处理研究表明,与具有强烈诱导性偏见(例如卷积神经网络和经常性神经网络)相比,基于变压器的模型比例更为有利。在本文中,我们研究了视觉变压器(VIT)的训练单游戏代理的CQL的骨干。在这项工作中,我们通过引入时空注意层来增强基于图像的RL的视觉变压器(VIT)。我们进一步研究了各种嵌入序列凝集方法对VIT性能的影响。总的来说,我们修改的VIT优于单场Atari设置中的标准VIT。
熟悉 AI 世界的人都知道,当今 AI 模型的一大特征是其永不满足的计算需求。如今,训练尖端的大型语言模型需要连续数月全天候运行数千个 GPU。例如,OpenAI 今年早些时候筹集了惊人的 100 亿美元,原因就是为了支付构建高级 AI 模型所需的大量计算资源。再举一个例子,成立 18 个月的初创公司 Inflection 最近筹集了超过 10 亿美元的风险投资,以构建一个庞大的 GPU 集群来训练其语言模型。