摘要。脑电图 (EEG) 分析任务对于脑机接口 (BCI) 的发展至关重要。然而,要达到开发稳健、有用的 BCI 的目标,很大程度上取决于 BCI 理解神经动态的速度和准确性。为了实现这一目标,本文详细介绍了预训练视觉变换器 (ViT) 与时间卷积网络 (TCNet) 的集成,以提高 EEG 回归的精度。这种方法的核心在于利用 ViT 的顺序数据处理优势以及 TCNet 的卓越特征提取能力,显着提高 EEG 分析的准确性。此外,我们分析了如何构建最佳补丁以供注意力机制分析的重要性,以平衡速度和准确性。我们的结果表明,回归准确度显著提高,EEGEyeNet 的绝对位置任务的均方根误差 (RMSE) 从 55.4 降至 51.8,优于现有的最先进模型。在不牺牲性能的情况下,我们将该模型的速度提高了一个数量级(最高可提高 4.32 倍)。这一突破不仅为 EEG 回归分析树立了新的标杆,还为未来将 Transformer 架构与针对不同 EEG 数据集的专门特征提取方法相结合的研究开辟了新途径。
植物性疾病对全球粮食安全和农业的可持续性构成了重大风险,从而导致经济损失和阻碍农村生计。传统的疾病检测方法,包括视觉检查和基于实验室的技术,其可扩展性,效率和准确性受到限制。本文解决了使用高级机器学习技术(特别是视觉变压器(VIT))准确检测和诊断植物疾病的关键问题,以克服这些限制。VITS利用自我发明的机制来捕获植物图像中的复杂模式,从而实现准确有效的疾病分类。本文回顾了有关农业深度学习技术的文献,强调了对植物疾病检测的VIT的日益兴趣。此外,它为培训和评估植物疾病分类任务的VIT模型提供了全面的方法。实验结果证明了VIT在准确识别55种平衡类别数据集中的各种植物疾病方面的有效性,强调了它们的潜力彻底改变了精密农业并促进可持续的农业实践。
Vision Transformers(Vits)在计算机VI-SION任务中出色,因为它们能够捕获令牌之间的全局上下文。但是,它们的二次复杂性o(n 2 d)就令牌数字n和功能尺寸d限制了移动设备上的实际使用,因此需要更加移动友好的VIT,并减少延迟。多头线性注意事项正在成为有前途的替代品,具有线性复杂性o(ndd),其中d是每个头尺寸。仍然需要更多的计算,因为d变得较大,以达到模型的准确性。降低D可以提高移动友好性,而牺牲了过度小头弱,但在学习有价值的子空间方面,最终阻碍了模型能力。为了克服这一效率难题,我们提出了一种新型的移动意见设计,并具有通过信息流赋予的头部竞争机制,这防止了过分强调琐碎的头部上的不太重要的子空间,同时保留了必要的子空间,以确保变压器的能力。它通过支持一个小尺寸d的小型动作效率来实现移动设备上的线性时间复杂性。通过移动注意事项替换VIT的标准注意力,我们优化的VIT在一系列计算机视觉任务中实现了增强的模型容量和竞争性的表现。特定的,我们已经在iPhone 12上实现了延迟的显着降低。代码可从https://github.com/thuml/mobileattention获得。
摘要近年来,变形金刚领导了自然语言处理的一场革命,而视觉变形者(VIT)承诺在计算机视觉中也这样做。广泛使用VIT的主要障碍是它们的计算成本。的确,给定图像分为一个贴片列表,vits计算每一层,每个贴片相对于所有其他贴片的注意力。在文献中,许多解决方案试图使用量化,知识蒸馏和输入扰动来降低注意力层的计算成本。在本文中,我们的目标是在这种情况下做出贡献。特别是,我们提出了一个使用加强学习来培训代理的框架,该框架是在培训VIT期间确定最不重要的补丁的代理商。一旦确定了此类斑块,AgentVit就将其删除,从而减少了VIT处理的斑块数量。我们的目标是减少VIT的训练时间,同时保持竞争性能。
摘要近年来,变形金刚领导了自然语言处理的一场革命,而视觉变形者(VIT)承诺在计算机视觉中也这样做。广泛使用VIT的主要障碍是它们的计算成本。的确,给定图像分为一个贴片列表,vits计算每一层,每个贴片相对于所有其他贴片的注意力。在文献中,许多解决方案试图使用量化,知识蒸馏和输入扰动来降低注意力层的计算成本。在本文中,我们的目标是在这种情况下做出贡献。特别是,我们提出了一个使用加强学习来培训代理的框架,该框架是在培训VIT期间确定最不重要的补丁的代理商。一旦确定了此类斑块,AgentVit就将其删除,从而减少了VIT处理的斑块数量。我们的目标是减少VIT的训练时间,同时保持竞争性能。
抽象的深度学习模型,例如卷积神经网络(CNN)和视觉变压器(VIT),在MRI图像上脑损伤的分类中已经实现了最先进的性能。但是,这种类型的图像的复杂性要求CNN使用具有更多参数的更深层体系结构,以有效地捕获其高维特征和微妙的变化。一方面,VIT提供了一种应对这一挑战的不同方法,但是它们需要更大的数据集和更多的计算成本。在另一侧,整体深度学习技术(例如装袋,堆叠和增强)可以通过组合多个CNN模型来帮助减轻这些限制。这项研究探讨了这些方法,并使用三种方法进行比较,以评估其准确性和效率:基于CNN的转移学习,基于VIT的转移学习和集成深度学习技术,例如基于XGBOOST,ADABOOST方法,袋装,堆叠和提高。在四个具有不同级别的复杂性和脑部病变类型水平的MRI图像数据集上进行的实验表明,与已经存在的方法相比,CNN与集合技术的组合为单个CNN和VITs提供了非常有竞争力的性能,并具有有趣的改进。
训练后量化(PTQ)已成为减少视觉变压器(VIT)的存储和计算成本的承诺解决方案。最近的进步主要是对制作量化器进行制作量化,以处理以VIT为特征的特殊激活。然而,大多数现有方法未列出重量序列产生的信息损失,从而导致严重的性能恶化,尤其是在低位案例中。此外,量化VIT后施加后激活的一种常见实践是对对数转换的影响,不幸的是,这对零左右的信息值较少。这种方法引入了其他冗余,最终导致了次序量化功效。为了处理这些内容,本文为VIT量身定制的创新PTQ方法称为AIQVIT(用于VIT S的训练后的训练后Q)。首先,我们设计了一个知情的低级补偿机制,其中引入了可学习的低级权重以补偿由权重量化引起的降解。第二,我们设计了动态的聚焦量化器,以适应后敏化后激活的不平衡分布,该分散量是为了动态地介绍更高量化的最有价值的间隔。对五个视觉任务的广泛实验,包括图像分类,对象检测,实例分割,点云分类和点云部分分割,证明了AIQVIT优于最先进的PTQ方法。
近年来,视觉变形金刚(VIT)已成为计算机视觉任务(例如图像分类,对象检测和分割)的强大而有前途的技术。与依赖层次特征提取的卷积神经网络(CNN)不同,VIT将图像视为斑块和杠杆自我发项机制的序列。但是,它们的高计算复杂性和内存要求对资源受限的边缘设备部署构成重大挑战。为了解决这些局限性,广泛的研究集中在模型压缩技术和硬件感知加速策略上。尽管如此,一项全面的审查系统地将这些技术及其在精确,效率和硬件适应性方面进行了对边缘部署的适应性的权衡。这项调查通过提供模型压缩技术的结构化分析,用于推理边缘的软件工具以及VIT的硬件加速策略来弥合此差距。我们讨论了它们对准确性,效率和硬件适应性的影响,突出了关键的挑战和新兴的研究方案,以推动Edge平台上的VIT部署,包括图形处理单元(GPU),张量处理单元(TPU)(TPU)和现场编程的门阵列(FPGAS)。目标是通过当代指南,以优化VIT,以在边缘设备上进行有效部署,以激发进一步的研究。
近年来,视觉变形金刚(VIT)已成为计算机视觉任务(例如图像分类,对象检测和分割)的强大而有前途的技术。与依赖层次特征提取的卷积神经网络(CNN)不同,VIT将图像视为斑块和杠杆自我发项机制的序列。但是,它们的高计算复杂性和内存要求对资源受限的边缘设备部署构成重大挑战。为了解决这些局限性,广泛的研究集中在模型压缩技术和硬件感知加速策略上。尽管如此,一项全面的审查系统地将这些技术及其在精确,效率和硬件适应性方面进行了对边缘部署的适应性的权衡。这项调查通过提供模型压缩技术的结构化分析,用于推理边缘的软件工具以及VIT的硬件加速策略来弥合此差距。我们讨论了它们对准确性,效率和硬件适应性的影响,突出了关键的挑战和新兴的研究方案,以推动Edge平台上的VIT部署,包括图形处理单元(GPU),张量处理单元(TPU)(TPU)和现场编程的门阵列(FPGAS)。目标是通过当代指南,以优化VIT,以在边缘设备上进行有效部署,以激发进一步的研究。
已显示出频率的方法,例如保守Q学习(CQL),对具有重置骨架的训练通才代理人有利。最近的视觉和自然语言处理研究表明,与具有强烈诱导性偏见(例如卷积神经网络和经常性神经网络)相比,基于变压器的模型比例更为有利。在本文中,我们研究了视觉变压器(VIT)的训练单游戏代理的CQL的骨干。在这项工作中,我们通过引入时空注意层来增强基于图像的RL的视觉变压器(VIT)。我们进一步研究了各种嵌入序列凝集方法对VIT性能的影响。总的来说,我们修改的VIT优于单场Atari设置中的标准VIT。