科学研究有益于结果可重复且易于与替代溶液相媲美。例如,在计算机科学和机器人技术中,ImageNet [1]或MS-Coco [2]等计算机视觉基准取得了巨大进展。一个关键特征是,它们将视觉感知分解为从单一的,裁剪的框架标记到检测多个对象的困难的任务。这些基准肯定与(深)学习的复兴相吻合,并且可能在第一个位置启用了它[2]。机器人技术中存在多个基准的区域正在抓住和/或bin拾取[3] - [5]; [6,选项卡中讨论了更多内容。1]。尤其是DEX-NET [5]共同开发了用于掌握计划的新颖解决方案,并通过发布培训和评估数据集来改进它们。在运动计划社区中,仅建立了一些基准,例如,开放运动计划库(OMPL)[7],[8] 1或Parasol 2的创建者。这些要么仅限于简单的点对点计划,要么仅包含没有特定应用程序的抽象计划问题。相比之下,专门用于特定用例的基准套件是自主驾驶[9]或MotionBenchmaker进行操作运动计划[6]的公共路。但是,对于给定任务评估最佳机器人或模块化机器人组件的基准套件不存在。我们提供第一个基准套件来比较不同现实世界环境中的机器人和模块化机器人组件的各种成本功能。示例解决方案
视频理解是计算机视觉中深度学习研究工作的自然扩展。图像理解领域从人工神经网络(ANN)机器学习(ML)方法的应用中受益匪浅。许多图像理解问题 - 对象识别,场景分类,语义细分等 - 可行的深度学习“解决方案”。 FIXEFFEFFICEDNET-L2当前在Imagenet对象分类任务上拥有88.5%/98.7%TOP-1/TOP-5精度[211,253]。HikVision D模型D在Place2场景分类任务上得分为90.99%的前5个精度[211,322]。hrnet-ocr在CityScapes语义细分测试中的平均值为85.1%[11,40]。自然,许多人希望深度学习方法可以在视频理解问题上取得相似的成功水平。从Diba等人那里绘制。(2019),语义视频理解是理解场景/环境,对象,动作,事件,属性和概念的组合[48]。本文重点介绍了动作理解部分,并通过介绍一组通用的术语和工具,解释基本和基本的概念并提供具体示例,作为教程。我们打算对一般计算机科学受众访问这一点,并假设读者对监督学习有基本的了解 - 从投入输出示例中学习的范式。
抽象的对比表示学习已被证明是图像和视频的有效自我监督的学习方法。最成功的方法是基于噪声对比估计(NCE),并将实例的不同视图用作阳性,应与其他称为否定的实例形成对比,被称为噪声。但是,数据集中的几个实例是从相同的分布中汲取的,并共享基本的语义信息。良好的数据表示应包含实例之间的关系,语义相似性和差异性,即通过将所有负面因素视为噪声来损害对比学习。为了避免此问题,我们提出了一种新的对比度学习的表述,使用称为“相似性对比估计(SCE)”的实例之间的语义相似性。我们的训练目标是一个软的对比目标,它使阳性更接近,并估计根据其学到的相似性推动或提取负面实例的连续分布。我们在图像和视频表示学习方面均通过经验验证我们的方法。我们表明,SCE在ImageNet线性评估方案上的最低时期时代的较少时代的时期与最低的时期进行了竞争性,并且它概括为几个下游图像任务。我们还表明,SCE达到了预处理视频表示的最新结果,并且学习的表示形式可以推广到下游任务。源代码可用:https://github.com/juliendenize/eztorch。
我们提出了视觉自动回归建模(VAR),这是一种新一代范式,它重新定义了图像上的自回归学习,例如粗到精细的“下一尺度预测”或“下一个分辨率预测”,与标准的栅格扫描“下一步的预测”不同。这种简单,直观的方法使自动回归(AR)变压器可以快速学习视觉分布并可以很好地概括:VAR首次使GPT型AR模型超过图像生成中的扩散变形金刚。在Imagenet上256×256基准上,通过将Fréchet距离(FID)从18.65提高到1.73,从80.4到350.2显着改善了AR基线,并具有20倍的推理速度。还经过经验验证,VAR在多个维度上胜过扩散变压器(DIT),包括图像质量,推理速度,数据效率和可扩展性。扩展VAR模型表现出与LLMS中观察到的明确的幂律缩放定律,线性相关系数接近-0。998作为可靠的证据。var进一步展示了下游任务中的零弹性概括能力,包括图像上涂抹,外观和编辑。这些结果表明,VAR最初模拟了LLM的两个重要特性:缩放定律和零弹性概括。我们发布了所有模型和代码,以促进对视觉生成和统一学习的AR/VAR模型的探索。
近年来,多层感知器 (MLP) 成为计算机视觉任务领域的研究热点。由于没有归纳偏差,MLP 在特征提取方面表现良好并取得了惊人的效果。然而,由于其结构简单,其性能高度依赖于局部特征通信机制。为了进一步提高 MLP 的性能,我们引入了脑启发神经网络的信息通信机制。脉冲神经网络 (SNN) 是最著名的脑启发神经网络,在处理稀疏数据方面取得了巨大成功。SNN 中的泄漏积分和触发 (LIF) 神经元用于在不同时间步骤之间进行通信。在本文中,我们将 LIF 神经元的机制合并到 MLP 模型中,以在不增加 FLOP 的情况下实现更好的准确率。我们提出了一种全精度 LIF 操作来在块之间进行通信,包括不同方向的水平 LIF 和垂直 LIF。我们还建议使用组 LIF 来提取更好的局部特征。借助 LIF 模块,我们的 SNN-MLP 模型在 ImageNet 数据集上分别仅使用 4.4G、8.5G 和 15.2G FLOP 就实现了 81.9%、83.3% 和 83.5% 的 top-1 准确率,据我们所知,这是最先进的结果。源代码将在 https://gitee.com/mindspore/models/tree/master/research/cv/snn mlp 上提供。
摘要 - 人类通过专注于与导航相关的特定视觉区域,在没有碰撞的情况下有效地通过人群导航。但是,大多数机器人视觉导航方法都依赖于对视觉任务进行预训练的深度学习模型,这些模型优先考虑显着对象,而不一定与导航和潜在的误导有关。替代方法从头开始训练专业导航模型,需要大量计算。另一方面,自我监督的学习彻底改变了计算机视觉和自然语言处理,但是由于难以定义有效的自学信号,因此其在机器人导航中的应用仍未被忽略。是由这些观察结果激励的,在这项工作中,我们为视觉导航预训练(VANP)提出了一种自我监督的视觉动作模型。而不是检测对分类或检测等任务有益的显着对象,而是学会仅专注于与导航任务相关的特定视觉区域。为了实现这一目标,VANP使用了视觉观察的历史记录,未来的动作和一个自upervision的目标图像,并使用两个小型变压器编码器嵌入它们。然后,通过使用共同信息最大化目标函数,VANP最大化嵌入之间的信息。我们证明了大多数VANP提取的功能与人类导航直觉匹配。vanp的性能可相当,因为模型学习了端到端的一半训练时间和在大规模,完全监督的数据集(即Imagenet)上进行培训的模型,只有0.08%的数据。1
摘要。扩散模型在高质量产生中表现出色,但由于迭代采样而导致缓慢的推断。尽管最近的方法已成功地将扩散模型转换为单步生成器,但它们忽略了模型尺寸的减小,从而将其适用性限制在计算受约束的情况下。本文旨在通过探索推理步骤和模型大小的关节压缩来开发基于强大的整流流框架的小型,有效的一步扩散模型。使用两种操作,回流和蒸馏,整流的流框架训练一步生成模型。与原始框架相比,挤压型号的大小带来了两个新的挑战:(1)在回流过程中,大型老师和小学生之间的初始化不匹配; (2)小型学生模型上天真蒸馏的表现不佳。为了克服这些问题,我们提出了退火回退和流引导的蒸馏,这共同构成了我们的Slimflow框架。使用新颖的框架,我们训练一个一步扩散模型,其FID为5.02和1570万参数,在CIFAR10上表现优于先前最新的一步扩散模型(FID = 6.47,1940万参数)。在Imagenet 64×64和FFHQ 64×64上,我们的方法产生了与较大模型相当的小型单步扩散模型,从而展示了我们方法在创建紧凑,有效的一步扩散模型时的效率。
过去十年见证了机器学习(ML)方法的越来越多,包括物理科学在内[1]。The rise of deep learning (DL) [ 2 ] in early 2010 and the remarkable potential of deep neural networks (DNNs) in learning highly predictive models, mainly powered by convolutional [ 3 ] and recurrent [ 4 ] neural networks, emphasized with the ImageNet challenge [ 5 ] and developments in areas such as reinforcement learning [ 6 ], have boosted the application of artificial intelligence (AI) in nearly all domains and thus reshaped the AI的未来。DL革命之后是成功的变压器体系结构[7],其中“注意”的概念被添加到标准NN的体系结构中,以捕获数据特征之间的长期相关性。变形金刚是大语言模型(LLM)的基础,可以通过在大型数据集上预处理,从而在没有特定领域的知识的情况下学习上下文,从而解开了另一个AI的新时代。尽管AI的发展急剧发展,但大多数基于ML的物理科学应用程序[1]着重于学习非线性数值模型以完成特定任务(例如,数据分析,模拟等)实现新发现。这里出现了物理学家对应用ML的期望以及如何推进物理学的期望。只是一组革命性的数学工具,其性能克服了经典方法,从而取代了它们(例如,DL表现出色的促进决策树,用于针对事件选择任务,该任务针对粒子物理学的标准模型以外的理论[8]),或者是数据驱动的科学发现的能力[8])?
移动设备已成为AI应用程序的重要推动因素,尤其是在需要实时性能的情况下。Vision Transformer(VIT)由于其高精度而已成为这方面的基本基石。最近的努力致力于开发各种变压器体系结构,这些架构在减少计算要求的同时提供了准确性。但是,现有研究主要集中于通过诸如局部注意力和模型修剪等方法来降低理论计算复杂性,而不是考虑在移动硬件上进行现实的性能。尽管这些优化减少了计算需求,但它们要么引入与数据转换有关(例如,重塑和转置)或不规则计算/数据访问模式相关的其他开销。由于其带宽有限,这些导致在移动设备上的高架开销,这甚至使延迟比移动设备上的Vanilla VIT更糟。在本文中,我们提出了ECP-VIT,这是一个实时框架,该框架采用了受大脑功能网络启发的核心期限原则来指导VIT中的自我注意力,并使VIT模型在智能手机上的部署。我们确定了由数据转换引起的变压器结构中的主要瓶颈,并提出了针对硬件友好的核心外围引导自我注意力,以减少计算需求。此外,我们设计了用于修剪模型中密集数据转换的系统优化。ECP-VIT,提出的算法 - 系统合作量可以达到4的速度。6×至26。在四个数据集的移动GPU上进行9倍:STL-10,CIFAR100,Tinyimagenet和Imagenet。
Error 500 (Server Error)!!1500.That’s an error.There was an error. Please try again later.That’s all we know.