深度学习为时间序列分析的进步做出了显着贡献。仍然,深层模型可以在现实世界中数据筛选场景中遇到性能瓶颈,由于当前基准上的小型模型的性能饱和,可以隐藏它们。同时,大型模型通过大规模的预训练在这些情况下表现出了很大的力量。通过大型语言模型的出现,已经取得了持续的进步,这些模型表现出了前所未有的能力,例如少数通用,ization,可伸缩性和任务通用性,但是在小型深层模型中不存在。为了更改从头开始的训练方案特定小型模型的现状,本文旨在早期开发大型时间序列模型(LTSM)。在预训练期间,我们策划了最高10亿个时间点的大规模数据集,将杂项时间序列统一为单序列序列(S3)格式,并开发GPT型体系结构to-Ward ltsms。为了满足各种应用需求,我们将预测,归档和时间序列的异常检测转换为统一的生成任务。这项研究的结果是一个时间的变压器(计时器),它是由下一个令牌预测预测的生成性培训,并适用于具有有希望的Capabil-Ities作为LTSM的各种下游任务。代码和数据集可在以下网址提供:https://github.com/thuml/large time-series-模型。
为了提高量化的传输器的计算效率,我们仅用涉及添加和relu激活的替代机制代替了点产生和基于软max的提示。此侧位于矩阵乘法通常需要的双重精度上的扩展,并避免了昂贵的软效果评估,但保持了传统点产物关注的大部分核心功能。它可以在资源约束的硬件或算法算术系统(例如同态加密)上获得更有效的执行并支持更大的量化变压器模型。在四个常见基准任务上进行的训练实验显示了测试集的预测分数,与传统变压器的观点相媲美。我们的缩放体验还表明,无论是在宣传和加密之外,都表明了大量的计算节省。本文中引起的基于RELU和基于加法的注意机制可以通过避免加密变量的昂贵乘法来实现在同态加密下运行的隐私AI应用。
摘要 - 基于变压器的模型主导了NLP和视觉应用,其基本机制却尚不清楚为标签空间映射到标签空间的基本机制。在本文中,我们研究了视觉变压器(VIT)的已知表示形式漏洞的来源,其中感知相同的图像可以具有非常不同的表示,而语义上无关的图像可以具有相同的表示形式。我们的分析表明,对输入的不可感知的变化可能会导致显着的表示变化,尤其是在以后的层中,这表明VIT的性能中的潜在不稳定性。我们的全面研究表明,在早期层中微妙的较微妙的效果通过网络传播和放大,在中间到晚层中变得最明显。这种洞察力激发了神经维特 - 武器的发展,这是一种新型的防御机制,在战略上使早期层中脆弱的神经元中和脆弱的神经元,以防止一系列对抗性效应。我们在各种攻击中展示了神经果赛的有效性,尤其是在强烈的迭代攻击中出色,并展示了其非凡的零弹性概括能力。在没有微调的情况下,我们的方法在对抗性示例中实现了77.8%的效率精度,超过了常规的鲁棒性方法。我们的结果为对抗性效应如何通过VIT层传播,同时提供了一种有希望的方法来增强视觉变压器对对抗性攻击的鲁棒性。此外,它们还提供了一种有希望的方法来增强视力变压器对对抗攻击的鲁棒性。索引术语 - 代表脆弱性,对抗性攻击,视觉变压器,可靠的嵌入
病理性脑外观可能非常多样化,以至于只能理解为异常,这些异常由其与正常的偏差而不是任何特定的病理特征集来定义。在医学成像中最困难的任务之一中,检测此类异常需要正常脑模型,该模型将紧凑性与表征其结构组织的复杂、长程相互作用的表达性相结合。这些要求是 Transformer 比其他当前候选架构更有潜力满足的,但它们的应用受到对数据和计算资源的需求的限制。在这里,我们将矢量量化变分自动编码器的潜在表示与一组自回归 Transformer 相结合,以实现无监督异常检测和分割,这些异常由与健康脑成像数据的偏差定义,在相对适中的数据范围内以较低的计算成本实现。我们在一系列涉及合成和真实病理病变的 2D 和 3D 数据的实验中将我们的方法与当前最先进的方法进行了比较。在真实病变中,我们利用来自英国生物库的 15,000 名放射学正常参与者训练我们的模型,并在四种不同的脑 MR 数据集上评估其性能,这些数据集包括小血管疾病、脱髓鞘病变和肿瘤。我们展示了卓越的异常检测性能,无论是图像方面还是像素/体素方面,都无需后处理即可实现。这些结果引起了人们对 transformers 在这项最具挑战性的成像任务中的潜力的关注。© 2022 作者。由 Elsevier BV 出版 这是一篇根据 CC BY 许可开放获取的文章(http://creativecommons.org/licenses/by/4.0/)
到目前为止,卷积神经网络 (CNN) 一直是视觉数据的实际模型。最近的研究表明,(Vision) Transformer 模型 (ViT) 可以在图像分类任务上实现相当甚至更优异的性能。这就提出了一个核心问题:Vision Transformer 如何解决这些任务?它们是像卷积网络一样工作,还是学习完全不同的视觉表示?通过分析图像分类基准测试中 ViT 和 CNN 的内部表示结构,我们发现这两种架构之间存在显著差异,例如 ViT 在所有层上都有更统一的表示。我们探索了这些差异是如何产生的,发现了自注意力机制发挥的关键作用,它可以实现全局信息的早期聚合,而 ViT 残差连接则可以将特征从较低层强烈传播到较高层。我们研究了对空间定位的影响,证明 ViT 成功地保留了输入的空间信息,并且不同分类方法的效果显著。最后,我们研究(预训练)数据集规模对中间特征和迁移学习的影响,并最后讨论与 MLP-Mixer 等新架构的连接。
摘要 - 占对象检测是在各种高安全地点执行的关键任务,包括机场,火车施工,地铁和港口。每小时检查数千张X射线图像的持续和乏味的工作可能会在精神上征税。因此,深层神经网络(DNN)可用于自动化X射线图像分析过程,提高效率并减轻安全人员的检查负担。通常在相关文学中使用的神经体系结构是卷积神经网络(CNN),而视觉变压器(VIT)很少使用。为了解决这一差距,本文对X射线图像中非法项目检测的相关VIT体系结构进行了全面评估。这项研究利用了变压器和杂化主链,例如Swin和Nextvit,以及探测器,例如Dino和RT-Detr。结果证明了Dino Transformer探测器在低数据策略,令人印象深刻的Yolov8实时性能以及混合NextVit主链的有效性中的出色准确性。索引术语 - 对象检测,X射线,视觉变压器,深神经网络
在这项研究中,我们证明了在电解图(EEG)回归任务上预处理的混合视觉变压器(VIT)模型的应用。最初接受了图像分类任务的训练,但在脑电图数据进行微调时,与其他模型相比,该模型的性能明显增加,包括相同的体系结构VIT训练而没有Imagenet权重。这一发现挑战了模型概括的传统范围,这表明在看似无关的图像数据上预测的变压器模型可以通过适当的精细调整管道为EEG回归任务提供宝贵的先验。这种方法的成功表明,在视觉任务中,VIT模型提取的功能可以很容易地用于EEG预测建模。我们建议不仅在神经科学和相关领域中利用这种方法,而且通常用于数据收集受实际,财务或道德约束限制的任何任务。我们的结果阐明了对任务明显不同的任务的潜力。
摘要:诸如ChatGpt和其他大型语言模型(LLM)等变压器网络的功能引起了世界的关注。其性能基础的至关重要的计算机制依赖于将完整的输入序列(例如,句子中的所有单词)转换为一个长的“编码向量”,该序列使变压器可以在自然序列中学习长距离的时间依赖性。具体来说,应用于此编码向量的“自我注意力”通过计算输入序列中的单词对之间的关联来增强变形金刚中的时间上下文。我们建议,跨单个皮质区域或以整个脑规模的多个区域传播的神经活动波可以实施类似的编码原理。通过将最新的输入历史记录到每个时间时刻,皮层波可以使时间上下文从感觉输入的序列中提取,这是变压器中使用的计算原理。
持续学习(CL)构成了深层神经网络(DNN)的重大挑战,这是由于灾难性的忘记在引入新的任务时对先前获得的任务的灾难性忘记。人类在学习和适应新任务的情况下擅长而无需忘记,这是通过大脑中的融合学习系统归因于抽象体验的彩排的能力。这项研究旨在复制和验证Birt的发现,Birt的发现是一种新型方法,利用视觉变压器来增强表示练习的代表性,以进行持续学习。birt在视觉变压器的各个阶段引入了建设性噪声,并与工作模型的指数移动平均值(以减轻过度拟合并增强鲁棒性)相加。通过复制Birt的方法,我们试图验证其声称的改善,比传统的原始图像排练和香草代表对几个具有挑战性的CLENCHM分析进行排练。此外,这项研究还研究了Birt对自然和对抗性腐败的记忆效率和稳健性,旨在增强其实际适用性。复制将提供对原始论文中介绍的思想的可这种可总合性和普遍性的关键见解。
随着视觉变换器 (ViT) 的巨大成就,基于变换器的方法已成为解决各种计算机视觉任务的新范式。然而,最近的研究表明,与卷积神经网络 (CNN) 类似,ViT 仍然容易受到对抗性攻击。为了探索不同结构模型的共同缺陷,研究人员开始分析跨结构对抗性迁移能力,而这方面仍未得到充分研究。因此,在本文中,我们专注于 ViT 攻击,以提高基于变换器和基于卷积的模型之间的跨结构迁移能力。先前的研究未能彻底调查 ViT 模型内部组件对对抗性迁移能力的影响,导致性能较差。为了克服这个缺点,我们开展了一项激励研究,通过线性缩小 ViT 模型内部组件的梯度来分析它们对对抗性迁移能力的影响。基于这项激励研究,我们发现跳跃连接的梯度对迁移能力的影响最大,并相信来自更深块的反向传播梯度可以增强迁移能力。因此,我们提出了虚拟密集连接方法(VDC)。具体来说,在不改变前向传播的情况下,我们首先重构原始网络以添加虚拟密集连接。然后,在生成对抗样本时,我们通过虚拟密集连接反向传播更深层注意力图和多层感知器(MLP)块的梯度。大量实验证实了我们提出的方法优于最先进的基线方法,ViT模型之间的可迁移性提高了8.2%,从ViT到CNN的跨结构可迁移性提高了7.2%。