Vision Transformer(VIT),与卷积神经网络的根本不同的架构具有多种优势,包括设计简单,鲁棒性和在许多视觉任务上的表现。然而,与卷积的旋转网络相反,视觉变压器缺乏固有的感应偏见。因此,对此类模型的成功培训主要归因于在大规模数据集上的预训练,例如具有1.2m的Imagenet或具有300m图像的JFT。这阻碍了小规模数据集的Vi-Sion变压器的直接适应。在这项工作中,我们表明可以直接从小规模数据集中学习自我监督的偏见,并作为微调的有效权重初始化方案。这允许在没有大规模预训练的情况下训练这些模型,更改模型体系结构或损失功能。我们提出了在五个小型数据集上成功训练整体石器和非孔子视觉转换器的thor outh实验,包括CIFAR10/100,CINIC10,SVHN,SVHN,Tiny-ImageNet和两个细粒度的数据集:飞机和汽车。我们的方法始终如一地提高视觉变压器的性能,同时保持其特性,例如关注显着区域和更高的鲁棒性。我们的代码和预培训模型可在以下网址获得:https://github.com/hananshafi/vits-for-small-scale-datasets。
李奕飞因其在计算机视觉和图像识别领域的开创性工作被称为人工智能教母。李奕飞发明了 ImageNet,这是一个基础性的大规模数据集,为深度学习和人工智能的关键发展做出了贡献。此前,她曾担任 Google Cloud 的人工智能首席科学家,以及白宫科技政策办公室和美国国家科学基金会的国家人工智能研究资源工作组成员。李奕飞目前是斯坦福大学红杉计算机科学教授,她在那里共同创立并共同指导以人为本的人工智能研究所。她还共同创立了国家非营利组织 AI4ALL,旨在提高人工智能教育的包容性和多样性。李奕飞是美国国家工程院和美国国家医学院院士,她最近出版了新书《我所看到的世界:人工智能黎明时的好奇心、探索和发现》。在接受《问题》编辑 Sara Frueh 采访时,李分享了她对如何让人工智能以人类福祉为中心、人工智能科学家和开发者的道德责任以及人工智能能够达到的人类品质是否有极限的看法。
由疾病和害虫造成的农作物损失对全球农业带来了重大挑战,花生作物尤其容易受到其有害作用的影响。这项研究介绍了花生视觉变压器(GNVIT)模型,这是一种新颖的方法,该模型在Imagenet数据集上介绍了预训练的视觉变压器(VIT)。主要目标是检测和分类影响花生作物的各种害虫。使用IP102的综合数据集进行了严格的培训和评估,其中包括thrips,蚜虫,军虫和线虫等害虫。使用可靠性指标(包括F1得分,召回和总体准确性)评估了GNVIT模型的有效性。与GNVIT的数据增强导致训练准确性显着提高,达到99.52%。比较分析强调了GNVIT模型的出色性能,特别是准确性,与最新的方法相比。这些发现强调了GNVIT等深度学习模型的潜力,它为花生作物提供可靠的害虫分类溶液。采用先进的技术解决方案的部署使我们更接近减少农作物损失并增强不断增长的人口的全球粮食安全的总体目标。
通过机器学习生成设计一直是计算机辅助设计领域的一项持续挑战。最近,深度学习方法已被用于随机生成时尚、家具和产品设计中的图像。然而,这种深度生成方法通常需要大量的训练图像,并且在设计过程中没有考虑到人为因素。在这项工作中,我们寻求一种方法,通过脑电图测量 (EEG) 指示的大脑活动将人类认知因素纳入生成过程。我们提出了一种受神经科学启发的机器学习设计方法,其中使用 EEG 来捕获首选的设计特征。此类信号用作生成对抗网络 (GAN) 中的条件。首先,我们使用循环神经网络 (LSTM - 长短期记忆) 作为编码器,从原始 EEG 信号中提取 EEG 特征;这些数据是从受试者观看 ImageNet 中的几类图像时记录下来的。其次,我们训练一个以编码的 EEG 特征为条件的 GAN 模型来生成设计图像。第三,我们使用该模型从受试者的 EEG 测量大脑活动生成设计图像。
视觉转换器 (ViT) 已证明其在计算机视觉任务中比卷积神经网络 (CNN) 具有更高的精度。然而,为了在资源有限的边缘设备上有效部署,ViT 模型通常需要大量计算。这项工作提出了 Quasar-ViT,一种面向硬件的量化感知 ViT 架构搜索框架,以设计用于硬件实现的高效 ViT 模型,同时保持精度。首先,Quasar-ViT 使用我们的逐行灵活混合精度量化方案、混合精度权重纠缠和超网层缩放技术来训练超网。然后,它应用一种高效的面向硬件的搜索算法,结合硬件延迟和资源建模,从不同推理延迟目标下的超网中确定一系列最佳子网。最后,我们提出了一系列 FPGA 平台上的模型自适应设计,以支持架构搜索并缩小理论计算减少和实际推理加速之间的差距。我们搜索到的模型在 AMD/Xilinx ZCU102 FPGA 上分别实现了 101.5、159.6 和 251.6 帧每秒 (FPS) 的推理速度,对于 ImageNet 数据集的 top-1 准确率分别达到 80.4%、78.6% 和 74.9%,始终优于之前的研究。
摘要 - Mamba是一种具有RNN样的状态空间模型(SSM)的架构,最近引入了以解决注意机制的二次复杂性,随后应用于视觉任务1。尽管如此,与卷积和基于注意力的模型相比,Mamba的视力表现通常令人难以置信。在本文中,我们深入研究了Mamba的本质,并从概念上得出结论,Mamba非常适合具有长期序列和自回归特征的任务。对于视觉任务,由于图像分类不与任何一个特征保持一致,因此我们假设Mamba对于此任务不是必需的;检测和细分任务也不是自动回归的,但它们遵守了长期的特征,因此我们认为仍然值得探索Mamba的这些任务潜力。为了凭经验验证我们的假设,我们通过堆叠Mamba块构建了一系列名为Mambaout的模型,同时删除其核心令牌混合器SSM。实验结果强烈支持我们的假设。具体来说,我们的Mambaout模型超过了ImageNet图像分类上的所有视觉Mamba模型,表明Mamba确实不需要执行此任务。对于检测和分割,Mambaout不能匹配最先进的视觉Mamba模型的性能,这证明了Mamba在长期的视觉任务中的潜力。
完全同构加密(FHE)是一种有前途的加密原始原始性,用于实现私人神经网络推理(PI)服务,通过允许客户端将推理任务完全卸载到云服务器,同时使客户端数据不符合服务器。这项工作提出了Neujeans,这是一种基于深层卷积神经网络(CNN)PI的解决方案。neujeans解决了CNN评估的巨大计算成本的关键问题。我们介绍了一种称为系数中插槽(CINS)编码的新型编码方法,该方法可以在一个HE乘法中进行多次插入而无需昂贵的插槽排列。我们进一步观察到编码是通过在常规插槽编码中的密文上进行离散傅立叶变换(DFT)的前几个步骤来获得的。此属性使我们能够保存CINS和插槽编码之间的转换,因为启动绑带密文始于DFT。利用这一点,我们为各种二维卷积(Conv2D)操作设计了优化的执行流,并将其应用于端到端CNN启动。neujeans与基于最新的FHE PI工作相比,高达5.68倍的Conv2D激活序列的性能加速了,并在仅几秒钟内就可以在Imagenet的规模上执行CNN的PI。
摘要 — 脉冲神经网络 (SNN) 通过离散二进制事件计算和传递信息。在新兴的神经形态硬件中,它被认为比人工神经网络 (ANN) 更具生物学合理性且更节能。然而,由于不连续和不可微分的特性,训练 SNN 是一项相对具有挑战性的任务。最近的工作通过将 ANN 转换为 SNN 在出色性能上取得了实质性进展。由于信息处理方面的差异,转换后的深度 SNN 通常遭受严重的性能损失和较大的时间延迟。在本文中,我们分析了性能损失的原因,并提出了一种新型双稳态脉冲神经网络 (BSNN),解决了由相位超前和相位滞后引起的失活神经元 (SIN) 脉冲问题。此外,当基于 ResNet 结构的 ANN 转换时,由于快捷路径的快速传输,输出神经元的信息不完整。我们设计了同步神经元 (SN) 来帮助有效提高性能。实验结果表明,与以前的工作相比,所提出的方法仅需要 1/4-1/10 的时间步骤即可实现几乎无损的转换。我们在包括 CIFAR-10(95.16% top-1)、CIFAR-100(78.12% top-1)和 ImageNet(72.64% top-1)在内的具有挑战性的数据集上展示了 VGG16、ResNet20 和 ResNet34 的最先进的 ANN-SNN 转换。
随着脑肿瘤的增多,研究人员正致力于实现脑肿瘤识别和诊断的自动化。众所周知,肿瘤的功能多种多样,因此多级脑肿瘤分类已成为一个突出的研究问题。由于手动执行肿瘤诊断过程非常繁琐。由于预测的有效性与放射科医生的专业知识有关,因此需要计算机辅助诊断系统。因此,我们需要一种需要较少预处理且能够有效实施的方法,而不是传统的机器学习方法。目前,迁移学习在深度学习中非常突出,因为它允许研究人员用很少的数据训练深度神经网络。EfficientNet 架构用于对脑肿瘤进行分类。在迁移学习的帮助下,EfficientNet 架构得到了训练。本研究工作基于 CNN 实施迁移学习,并使用 EfficientNet B0 和 EfficientNet B7 模型,该模型利用 ImageNet 数据集中的权重对 kaggle 公开数据集上的 4 种常见脑肿瘤类别(如无肿瘤、垂体、脑膜瘤、神经胶质瘤)进行分类。该数据集包含 3264 张脑 MRI 图像。使用这两种模型获得的准确度与各种性能指标(如准确度、精确度、F1 分数、特异性、灵敏度)一起计算。最高准确度为 98%。研究结果表明,该方法可用于将脑肿瘤分为几类。
在当代计算机视觉应用中,尤其是图像分类中,在像Imagenet这样的大型数据集上预先训练的建筑背骨通常被用作特征提取器。尽管这些预训练的卷积神经网络(CNN)广泛使用,但在理解各种各样的功能和数据集大小的各种资源有效骨干的性能方面仍然存在差距。我们的研究系统地评估了多个数据集的一致训练设置,包括自然图像,医学图像,银河系图像和遥感图像,在一致的训练设置下进行了多次轻巧,预训练的CNN骨干。这种全面的分析旨在帮助机器学习从业人员为其特定问题选择最合适的骨干,尤其是在涉及细调预培训网络的小型数据集的情况下。尽管基于注意力的架构越来越受欢迎,但我们观察到,与CNN相比,它们在低数据微调任务下的性能往往较差。我们还观察到,与其他CNN架构(例如Convnext,Regnet和EfficityNet)相比,与其他各种领域相比,相比之下。我们的发现提供了可行的见解,以实现不同骨架的折衷权和有效性,从而促进了模型选择中明智的决策,以获得广泛的计算机视觉域。我们的代码可在此处提供:https://github.com/pranavphoenix/backbones