多模式嵌入式编码文本,图像,热图像,声音和视频中的单个嵌入空间,对跨不同方式的对齐表示(例如,,将狗的图像与吠叫声相关联)。在本文中,我们表明多模式的嵌入可能容易受到我们称为“对抗幻觉的攻击”。给定图像或声音,对手可以扰动它,以使其嵌入接近另一种模式中的任意,对手选择的输入。这些攻击是跨模式和目标的:对手可以将任何图像或声音与他选择的任何目标保持一致。广泛的幻觉利用了嵌入空间中的邻近性,因此对下游任务和方式不可知,从而实现了当前和将来的任务的批发妥协,以及对敌方无法获得的方式。使用Imbind和AudioClip嵌入,我们演示了对抗性输入,在不了解特定下游任务,误解图像生成,文本生成,零拍,零拍摄和音频检索的情况下生成的对准输入是如何对准的。我们调查了跨不同嵌入式嵌入方式的幻觉的可转移性,并开发了我们方法的黑盒版本,我们用来证明对亚马逊商业专有泰坦嵌入的第一个对抗性对齐攻击。最后,我们分析了对策和逃避攻击。
摘要 - 触觉传感在人类的感知和操纵任务中起关键作用,使我们能够直观地理解任务动态并实时适应我们的行动。将这种触觉智能传输到机器人系统将有助于智能代理理解任务约束,并准确地解释他们正在与之交互的对象和自己的操作的动态。尽管由于触觉传感器形式的多样性,操纵任务和学习目标的多样性,虽然将机器人带入这种触觉智能方面已经取得了重大进展,但仍在有效地利用触觉信息。为了应对这一挑战,我们提出了一个统一的触觉嵌入空间,能够预测多种以任务为中心的质量。我们从各种任务中的人类演示中收集触觉数据,并利用此数据来构建一个共享的潜在空间,以进行任务阶段分类,对象动态估计和触觉动态预测。通过实验和消融研究,我们证明了我们共享的触觉潜在空间的有效性,以实现更准确和适应能力的触觉网络,显示出在单任务训练中的提高高达84%。
知识图谱 [39](KG)是一种用于知识表示的抽象,通过表示诸如纽约市和美国之类的实体(即节点)以及连接这些实体的二元关系,对一个或多个领域的知识进行编码;例如,纽约市和美国通过关系国家连接起来,即纽约市有美国这个国家。大多数 KG 还包含将实体与文字连接起来的关系,即来自已知数据结构的值,如字符串、数字、日期等;例如,连接纽约市和整数 1624 的关系 solved 描述实体纽约市的属性。更一般地,我们可以从双重视角看待知识图谱:将其视为有向标记多图,其中节点表示实体或文字,标记边表示实体之间或实体与文字之间的特定关系;以及一组陈述,也称为事实,具有主语-谓语-宾语三元组的形式,例如(纽约市,国家,美国)和(纽约市,定居,1624)。在下文中,我们将使用符号 (h, r, t)(头,关系,尾)来标识知识图谱中的陈述,就像在有关知识图谱嵌入的文献中经常使用的那样。知识图谱中描述的实体通常使用一组类型来组织,例如城市和国家,也称为概念、类或数据类型(当称为
量子计算提供了一种有希望的途径来降低日益增长的机器学习模型复杂性,这是天气预报、财务预测或工程的大型语言模型和模拟模型所必需的。图神经网络是一类特殊的机器学习模型,因其能够很好地处理结构化数据而备受关注。我们研究如何增强现有的 GNN,并通过归纳偏差发现量子电路最适合用于编码节点特征。提出的量子特征嵌入 (QFE) 将原始输入特征转换为量子态,从而实现非线性和纠缠表示。特别是,QFE 在指数级更大的特征空间中提供规范化、非冗余的权重矩阵,并且所需的量子比特比完全量子图神经网络少得多。在标准图基准数据集上,我们展示了对于相同参数数量,QFE 的表现优于其经典对应物,并且能够匹配指数级更大的模型的性能。最后,我们研究了在具体用例激光切割上使用混合量子图神经网络相对于经典替代方案的潜在优势。我们发现所提出的模型具有提升这些商业应用的性能,因此在短期内有潜力。
人们已经尝试过多种方法来设计有效的方法来寻找 QA 中 Ising 问题的映射。这些尝试可以分为两类。第一种方法是寻找具有近乎最优嵌入的完全图的嵌入,同时考虑目标图的结构。第一项工作是由 V. Choi [3] 提出的,它提供了三角布局上完全图的最佳嵌入(TRIAD 方案)。这项初步工作由 C. Klymko 等人完成。[6],他们提出了一种次要嵌入方法,专门用于在由定期分派的完全连通二分子图组成的格子上查找团嵌入。该方法考虑不可操作的量子位(目标图通常包含一些禁用的量子位),并生成从初始近乎最优的团嵌入派生的有效嵌入。第二种方法考虑在部分已知或未知的目标图上嵌入未知结构化输入图的算法。[2] 中提出了一种初始的通用启发式方法,并在 [4] 中实现。该算法由两步组成:第一步是为每个逻辑量子位找到一个允许重叠的初始映射(即,顶点 v ∈ V t 可能映射 V s 中的多个顶点 ϕ ( v )。第二步是细化,通过删除顶点映射 ϕ ( v ) 并寻找该顶点的更好映射来迭代改进映射,从而最小化物理顶点的总数。顶点映射的质量用成本函数计算。没有任何重叠的输出图被认为是有效的。当在特定次数的尝试期间没有取得任何改进时,细化阶段结束。其他几种启发式算法一直在重复使用这种算法
词嵌入是使用计数或预测技术构建的矢量语义表示,旨在从词语共现中捕捉含义的细微差别。自从它们被引入以来,这些表示就因缺乏可解释的维度而受到批评。词嵌入的这种特性限制了我们对它们实际编码的语义特征的理解。此外,它导致了它们所用于任务的“黑箱”性质,因为词嵌入性能的原因通常对人类来说仍然是模糊的。在本文中,我们探索了词嵌入中编码的语义属性,将它们映射到可解释的向量上,由明确的和神经生物学驱动的语义特征组成(Binder 等人,2016 年)。我们的探索考虑了不同类型的嵌入,包括分解计数向量和预测模型(Skip-Gram、GloVe 等),以及最新的情境化表示(即 ELMo 和 BERT)。
词嵌入是使用计数或预测技术构建的矢量语义表示,旨在从词语共现中捕捉含义的细微差别。自从它们被引入以来,这些表示就因缺乏可解释的维度而受到批评。词嵌入的这种特性限制了我们对它们实际编码的语义特征的理解。此外,它导致了它们所用于任务的“黑箱”性质,因为词嵌入性能的原因通常对人类来说仍然是模糊的。在本文中,我们探索了词嵌入中编码的语义属性,将它们映射到可解释的向量上,由明确的和神经生物学驱动的语义特征组成(Binder 等人,2016 年)。我们的探索考虑了不同类型的嵌入,包括分解计数向量和预测模型(Skip-Gram、GloVe 等),以及最新的情境化表示(即 ELMo 和 BERT)。
对比语言图像预训练 (CLIP) 编码器已被证明对从分类和检测到字幕和图像处理等一系列视觉任务有益。我们研究了 CLIP 视觉主干对 Embodied AI 任务的有效性。我们构建了非常简单的基线,称为 EmbCLIP,没有任务特定的架构、归纳偏差(例如使用语义图)、训练期间的辅助任务或深度图——但我们发现我们改进的基线在一系列任务和模拟器中表现非常出色。EmbCLIP 在 RoboTHOR ObjectNav 排行榜上以 20 分(成功率)的巨大优势名列前茅。它在 iTHOR 1-Phase Rearrangement 排行榜上名列前茅,击败了采用主动神经映射的第二佳提交作品,并且 % Fixed Strict 指标增加了一倍多(0.08 到 0.17)。它还击败了 2021 年 Habitat ObjectNav 挑战赛的获胜者,该挑战赛采用了辅助任务、深度图和人工演示,以及 2019 年 Habitat PointNav 挑战赛的获胜者。我们评估了 CLIP 的视觉表示在捕获输入观察的语义信息方面的能力——这些原语对于导航繁重的具身任务很有用——并发现 CLIP 的表示比 ImageNet 预训练的主干更有效地编码了这些原语。最后,我们扩展了我们的一个基线,生成了一个能够进行零样本物体导航的代理,它可以导航到训练期间未用作目标的物体。我们的代码和模型可以在 https://github.com/allenai/embodied-clip 获得。
量子计算提供了一种有希望的途径,可根据大型语言模型和天气预报,财务预测或工程的模拟模型中的要求减少生长的机器学习模型复杂性。图形神经网络是一种特定类别的机器学习模型,它们能够很好地处理结构化数据。我们研究了如何增强现有的GNN,并通过电感偏差找到量子电路最适合编码节点特征的偏差。所提出的量子特征嵌入(QFE)将原始输入特征转换为量子状态,从而实现非线性和纠缠表示。尤其是,QFE在指数较大的特征空间中提供了归一化的,非冗余的重量矩阵,并且比完全量子图神经网络所需的量子量要少得多。在标准图基准数据集中,我们展示的是,对于相同的参数计数,QFE的性能优于其经典对应物,并且能够匹配指数较大的模型的性能。最后,我们研究了在混凝土用例,激光切割上使用混合量子图神经网络的潜在优势。我们发现所提出的模型具有提高这些业务应用程序的绩效,因此具有近期潜力。
本文通过利用大型预训练模型来探讨合成数据的潜力,尤其是在面对分布变化时。al-尽管生成模型的最新进展已经阐明了跨分布数据发生的几项先前的作品,但它们需要模型调整和复杂的设置。为了绕过这些缺点,我们介绍了主要的g a a a a a a a a embeddings(doge),这是一个跨分布的插件语义数据augpection框架,几乎没有射击设置。我们的方法以潜在形式提取源和所需数据分布之间的差异,然后引导生成过程,以补充无数多种合成样本的训练集。我们的评估是在几个射击范式下进行亚种群偏移和三个领域适应方案进行的,表明我们的多功能方法改善了各个任务的性能,需要进行动手干预或复杂的调整。Doge铺平了毫不费力地生成遵循测试分布的现实,可转让的合成数据集的道路,从而加强了下游任务模型的现实世界效率。