迁移学习使我们能够利用从一项任务中获得的知识来帮助解决另一项相关的任务。在现代计算机视觉研究中,问题是哪种架构对于给定的数据集表现更好。在本文中,我们比较了 14 个预训练的 ImageNet 模型在组织病理学癌症检测数据集上的表现,其中每个模型都配置为朴素模型、特征提取器模型或微调模型。Densenet161 已被证明具有高精度,而 Resnet101 具有高召回率。当后续检查成本高时,适合使用高精度模型,而当后续检查成本低时,可以使用低精度但高召回率/灵敏度的模型。结果还表明,迁移学习有助于更快地收敛模型。
最近,具有效率的硬件感知设计的状态空间模型(SSM),即Mamba深度学习模型,已显示出长序列建模的巨大计算。同时,纯粹在SSM上建立有效和通用的视力骨干是一个吸引人的方向。,由于视觉数据的位置敏感性以及全球上下文对视觉理解的要求,代表视觉数据对SSM的挑战。在本文中,我们表明,对自我注意力的依赖无需进行视觉代表学习,并提出了带有双向Mamba块(VIM)的新的通用视觉主链,该主块(VIM)标记了带有位置嵌入的图像序列,并用Bidirectiact态态空间模型将视觉表示。Imagenet分类,可可对象检测和ADE20K
机器学习已经在图像分类[1]、视频识别[2]、自然语言处理(NLP)[3]和游戏策略[4]等众多应用中取得了最先进的性能。此外,深度神经网络(DNN)甚至可以在一些任务中超越人类水平的表现,例如ImageNet分类[5]和棋盘游戏围棋[4]。同时,神经网络的复杂度和参数大小在过去几年中飙升。尽管通用图形处理单元(GPGPU)取得了快速发展,但其能源效率仍然远低于终极“智能”——人脑,后者包含10 10个神经元和10 14个突触,但仅消耗约20瓦[6]。其中一个瓶颈来自于冯诺依曼架构将内存和处理单元分开的事实,从而引入了大量的数据移动能量以及数据访问延迟[7]。
视觉识别生态系统(例如 ImageNet、Pascal、COCO)在现代计算机视觉的发展中发挥了不可否认的作用。我们认为,在这些生态系统出现之前,交互式和具身视觉 AI 已经达到了与视觉识别类似的发展阶段。最近,各种合成环境已被引入以促进具身 AI 的研究。尽管取得了这些进展,但在模拟中训练的模型如何很好地推广到现实这个关键问题仍然基本上没有答案。为模拟到现实的具身 AI 创建一个可比的生态系统提出了许多挑战:(1)问题固有的交互性,(2)现实世界和模拟世界之间需要紧密结合,(3)复制可重复实验的物理条件的难度,(4)以及相关成本。在本文中,我们引入了 R OBO THOR 来使交互式和具身视觉 AI 的研究民主化。 R OBO THOR 提供模拟环境框架
神经网络使最先进的方法能够在目标检测等计算机视觉任务上取得令人难以置信的效果。然而,这种成功很大程度上依赖于昂贵的计算资源,这阻碍了拥有廉价设备的人们欣赏先进的技术。在本文中,我们提出了跨阶段部分网络(CSPNet)来从网络架构的角度缓解以前的工作需要大量推理计算的问题。我们将问题归因于网络优化中的重复梯度信息。所提出的网络通过整合网络阶段开始和结束的特征图来尊重梯度的变化,在我们的实验中,在 ImageNet 数据集上以相同甚至更高的精度将计算量减少了 20%,并且在 MS COCO 目标检测数据集上的 AP 50 方面明显优于最先进的方法。 CSP-Net 易于实现且足够通用,可以应对基于 ResNet、ResNeXt 和 DenseNet 的架构。
摘要。我们提出了W.A.L.T,是从文本提示中生成照相视频的分段变压器。我们的方法有两个关键的设计决策。首先,我们使用因果编码器在一个统一的潜在空间内共同压缩图像和视频,从而使跨模态培训和发电。第二,为了记忆和训练效率,我们使用针对关节空间和Spatiotempo-po-ral生成建模的窗口注意体系结构。综合这些设计决策使我们能够在既定视频(UCF-101和Kinetics-600)和Image(ImageNet)生成基准上实现最先进的性能,而无需使用分类免费的指导。最后,我们还培训了三个模型的级联,以完成由基本的潜在视频差异模型组成的文本到视频生成的任务,以及两个视频超分辨率分离模型,以每秒8帧的速度生成512×896分辨率的视频。
人工智能领域自诞生之日起就对知识感兴趣,它使用精心设计的规则和从人类那里收集的知识来构建有效的专家系统。从那时起,许多领域,如计算机视觉和自然语言处理,一直由使用大型数据集的大规模端到端学习所主导。这往往使知识成为许多重要问题的后续考虑。然而,随着我们在 ImageNet 挑战赛 [ 294 ] 等大型挑战和数据集上的表现达到饱和,并且该领域越来越关注诸如大类别识别和完全具身人工智能(需要理解多种模态的代理)的问题,知识将变得更加重要。在本文中,我们认为,要实现聪明机器人或具身人工智能的目标,我们需要处理视觉、语言和动作这三种模态。我们进一步认为,知识是连接这些模式的关键部分。
木马(后门)攻击是针对深度神经网络的一种对抗性攻击,攻击者向受害者提供一个在恶意数据上训练/再训练的模型。当正常输入带有某种称为触发器的模式时,后门就会被激活,从而导致错误分类。许多现有的木马攻击的触发器是输入空间块/对象(例如,纯色多边形)或简单的输入转换,如 Instagram 滤镜。这些简单的触发器容易受到近期后门检测算法的影响。我们提出了一种新颖的深度特征空间木马攻击,具有五个特点:有效性、隐蔽性、可控性、鲁棒性和对深度特征的依赖。我们对包括 ImageNet 在内的各种数据集上的 9 个图像分类器进行了大量实验,以证明这些特性,并表明我们的攻击可以逃避最先进的防御。
妇女通过创造力,领导力和开创性的创新来帮助塑造技术的未来。这样的开拓者是斯坦福大学著名的计算机科学家兼教授Fei-Fei Li博士。她帮助建立了ImageNet,这是一个帮助计算机视觉在2010年代提高的数据集。作为斯坦福人工智能实验室的联合导演,她在推进机器学习技术和计算机视觉应用方面发挥了至关重要的作用,这有助于开发可以感知和理解世界的智能系统。在软件开发中,格蕾丝·霍珀(Grace Hopper)的遗产隐约可见。霍珀(Hopper)是一个标志性的人物,是编程语言开发的先驱,并在COBOL(共同以业务为导向的语言)的创建中发挥了关键作用。她的开创性工作为现代软件开发奠定了基础,并且她经常被认为是调试一词。
数据增强对改善深度元学习的鲁棒性是有益的。然而,最近的深度元学习的数据预言方法仍然基于光度或几何操作或图像的组合。本文提出了一个生成的对抗自动说明网络(GA3N),用于扩大增强搜索空间并提高分类精度。要实现,我们首先使用gans扩展了图像增强的搜索空间。但是,主要的挑战是生成适合任务的图像。对于解决方案,我们通过优化目标和gan损失来找到最佳策略。然后,我们使用由策略网络确定的操纵和生成的样本作为改进目标任务的增强样本。为了显示我们的方法的效果,我们通过组合GA3N并在CIFAR-100和Tiny-ImageNet数据集上进行评估来实现分类网络。因此,我们比每个数据集上的最新自动说明方法获得了更好的准确性。