Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

通过高阶校准实现可证明的不确定性分解

Provable Uncertainty Decomposition via Higher-Order Calibration

我们给出了一种原则性方法,用于将模型的预测不确定性分解为具有明确语义的随机和认知组件,将它们与真实世界的数据分布相关联。虽然文献中的许多作品都提出了这样的分解,但它们缺乏我们提供的正式保证类型。我们的方法基于高阶校准的新概念,它将普通校准推广到高阶预测器的设置,这些预测器在每个点上预测标签分布的混合。我们展示了如何测量以及实现高阶校准……

EMOTION:具有上下文学习的人形机器人的富有表现力的运动序列生成

EMOTION: Expressive Motion Sequence Generation for Humanoid Robots with In-Context Learning

本文介绍了一种名为 EMOTION 的框架,用于在人形机器人中生成富有表现力的运动序列,从而增强它们进行类似人类的非语言交流的能力。面部表情、手势和身体动作等非语言线索在有效的人际互动中起着至关重要的作用。尽管机器人行为取得了进步,但现有方法往往无法模仿人类非语言交流的多样性和微妙性。为了解决这一差距,我们的方法利用大型语言模型 (LLM) 的上下文学习能力来……

ELEGNT:非拟人化机器人的表达性和功能性运动设计

ELEGNT: Expressive and Functional Movement Design for Non-Anthropomorphic Robot

在人际交往中,姿势、手势和凝视等非语言行为对于有意识和无意识地传达内部状态至关重要。为了让机器人与人类更自然地互动,机器人运动设计同样应该将表达品质(例如意图、注意力和情感)与传统的功能考虑因素(如任务完成、空间限制和时间效率)结合起来。在本文中,我们介绍了一种灯状机器人的设计和原型设计,该机器人探索了运动中功能性和表达目标之间的相互作用……

使用 Moscot 映射时间和空间中的细胞

Mapping Cells Through Time and Space With Moscot

单细胞基因组学技术能够在时间和空间维度上对数百万个细胞进行多模态分析。实验限制阻碍了在其原生时间动态或空间组织环境中测量包罗万象的细胞状态。最佳传输理论已成为克服此类限制的有力工具,能够恢复原始细胞环境。然而,目前大多数可用的算法实现都没有跟上数据集复杂性不断增加的步伐,因此当前的方法无法结合多模式……

关于大型语言模型对顺序决策的建模能力

On the Modeling Capabilities of Large Language Models for Sequential Decision Making

大型预训练模型在不同模式下的推理和规划任务中表现出越来越好的性能,为利用它们解决复杂的顺序决策问题提供了可能性。在本文中,我们研究了大型语言模型 (LLM) 在各种交互领域中进行强化学习 (RL) 的能力。我们评估了它们制定决策策略的能力,无论是直接通过生成动作,还是间接通过首先生成奖励模型来训练具有 RL 的代理。我们的结果表明,即使没有……

延迟融合:将大型语言模型集成到端到端语音识别的首次解码中

Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition

本文介绍了一种使用大型语言模型 (LLM) 进行端到端自动语音识别 (E2E-ASR) 的有效解码方法。虽然浅层融合是将语言模型纳入 E2E-ASR 解码的最常见方法,但我们在 LLM 方面面临两个实际问题。 (1) LLM 推理在计算上成本高昂。 (2) ASR 模型和 LLM 之间可能存在词汇不匹配。为了解决这种不匹配,我们需要重新训练 ASR 模型和/或 LLM,这在最好的情况下很耗时,而且在许多情况下是不可行的。我们提出了“延迟融合”,它应用 LLM 分数……

DSplats:通过对基于 Splats 的多视图扩散模型进行去噪实现 3D 生成

DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models

生成高质量的 3D 内容需要能够学习复杂场景及其中真实物体的稳健分布的模型。最近基于高斯的 3D 重建技术通过以前馈方式预测 3D 高斯函数,在从稀疏输入图像中恢复高保真 3D 资产方面取得了令人印象深刻的结果。然而,这些技术通常缺乏扩散模型提供的广泛先验和表现力。另一方面,已成功应用于多视图图像去噪的 2D 扩散模型显示出生成广泛...

解释 CLIP:对 ImageNet 分布变化的鲁棒性的见解

Interpreting CLIP: Insights on the Robustness to ImageNet Distribution Shifts

稳健模型和非稳健模型的区别是什么?虽然对于 ImageNet 分布变化,已经表明这种稳健性差异可以主要追溯到训练数据的差异,但到目前为止,尚不清楚这在模型学习方面意味着什么。在这项工作中,我们通过探测具有各种主干(ResNets 和 ViTs)和预训练集(OpenAI、LAION-400M、LAION-2B、YFCC15M、CC12M 和 DataComp)的 16 个稳健零样本 CLIP 视觉编码器的表示空间,并将它们与较少的表示空间进行比较来弥合这一差距……

通过传输激活来控制语言和扩散模型

Controlling Language and Diffusion Models by Transporting Activations

大型生成模型的功能不断增强,部署范围也越来越广,这引发了人们对其可靠性、安全性和潜在滥用的担忧。为了解决这些问题,最近的研究提出通过控制模型激活来控制模型生成,以便有效地诱导或防止生成输出中出现概念或行为。在本文中,我们介绍了激活传输 (AcT),这是一个由最佳传输理论指导的激活控制通用框架,它概括了许多以前的激活控制工作。AcT 是……

KG-TRICK:统一文本和关系信息知识完成多语言知识图谱

KG-TRICK: Unifying Textual and Relational Information Completion of Knowledge for Multilingual Knowledge Graphs

多语言知识图谱 (KG) 为各种 NLP 应用程序提供高质量的关系和文本信息,但它们通常不完整,尤其是在非英语语言中。先前的研究表明,结合不同语言的 KG 信息有助于知识图谱完成 (KGC)(预测实体之间缺失关系的任务)或知识图谱增强 (KGE)(预测实体缺失的文本信息的任务)。尽管之前的研究已经将 KGC 和 KGE 视为独立的任务,但我们假设它们是……

指纹识别代码与几何学相遇:改进隐私查询发布和自适应数据分析的下限

Fingerprinting Codes Meet Geometry: Improved Lower Bounds for Private Query Release and Adaptive Data Analysis

指纹代码是证明差分隐私下限的重要工具。它们已用于证明几个基本问​​题的严格下限,尤其是在“低准确度”制度下。然而,与重构/差异方法不同,它们更适合证明最坏情况下限,用于自然产生于指纹代码构造的查询集。在这项工作中,我们提出了一个证明指纹类型下限的通用框架,该框架允许我们根据查询集的几何形状定制该技术。我们的方法允许我们……

SLiCK:利用子序列进行长度受限的关键字识别

SLiCK: Exploiting Subsequences for Length-Constrained Keyword Spotting

在资源受限的边缘设备上进行用户定义的关键字识别具有挑战性。但是,关键字通常受最大关键字长度的限制,这在以前的工作中基本上没有得到充分利用。我们对关键字长度分布的分析表明,用户定义的关键字识别可以视为长度受限的问题,从而无需对可变文本长度进行聚合。这导致了我们提出的高效关键字识别方法 SLiCK(利用子序列进行长度受限的关键字识别)。我们进一步引入了子序列级匹配方案来……

私人重复和元选择中的隐私计算权衡

Privacy-Computation Trade-offs in Private Repetition and Metaselection

私有重复算法将成功概率为恒定的差分私有算法作为输入,并将其提升为成功概率较高的算法。这些算法与与众多私有算法中的最佳算法竞争的私有元选择算法以及与私有学习算法的最佳超参数设置竞争的私有超参数调整算法密切相关。这些任务的现有算法要么在隐私成本上付出了巨大的开销,要么在计算成本上付出了巨大的开销。在这项工作中,我们展示了强下限......

3D 形状标记化

3D Shape Tokenization

我们引入了形状标记,这是一种连续、紧凑且易于集成到机器学习模型中的 3D 表示。形状标记用作条件向量,表示 3D 流匹配模型中的形状信息。此流匹配模型经过训练,可以近似对应于集中在 3D 形状表面上的 delta 函数的概率密度函数。通过将形状标记整合到各种机器学习模型中,我们可以生成新形状、将图像转换为 3D、将 3D 形状与文本和图像对齐,并直接在变量处渲染形状……

使用 ReDrafter 加速 NVIDIA GPU 上的 LLM 推理

Accelerating LLM Inference on NVIDIA GPUs with ReDrafter

加速 LLM 推理是一个重要的 ML 研究问题,因为自回归 token 生成计算成本高且相对较慢,而提高推理效率可以减少用户的延迟。除了持续努力加速 Apple 芯片上的推理之外,我们最近在加速 NVIDIA GPU 的 LLM 推理方面取得了重大进展,该 GPU 广泛用于整个行业的生产应用程序。今年早些时候,我们发布并开源了 Recurrent Drafter (ReDrafter),这是一种新颖的推测解码方法,达到了最先进的水平……

ARMADA:用于机器人操控和无机器人数据采集的增强现实

ARMADA: Augmented Reality for Robot Manipulation and Robot-Free Data Acquisition

机器人模仿学习的远程操作受到硬件可用性的瓶颈。没有物理机器人,可以收集高质量的机器人数据吗?我们提出了一个通过实时虚拟机器人反馈增强 Apple Vision Pro 的系统。通过让用户直观地了解他们的动作如何转化为机器人动作,我们能够收集与物理机器人硬件的限制兼容的自然徒手人类数据。我们对 15 名参与者进行了一项用户研究,在 3 种不同的反馈条件下分别演示了 3 个不同的任务,并且……

BayesCNS:一种统一的贝叶斯方法,用于解决大规模搜索系统中的冷启动和非平稳性问题

BayesCNS: A Unified Bayesian Approach to Address Cold Start and Non-Stationarity in Search Systems at Scale

搜索和推荐平台中使用的信息检索 (IR) 系统经常采用学习排序 (LTR) 模型来对响应用户查询的项目进行排序。这些模型严重依赖从用户交互中获得的特征,例如点击和参与度数据。这种依赖性为缺乏用户参与度的项目带来了冷启动问题,并带来了适应用户行为随时间变化的挑战。我们将这两个挑战作为在线学习问题全面解决,并提出了 BayesCNS,这是一种旨在处理冷启动和… 的贝叶斯方法

评估预训练和即时适应语言模型之间的性别偏见转移

Evaluating Gender Bias Transfer between Pre-trained and Prompt-Adapted Language Models

*平等贡献者大型语言模型 (LLM) 越来越多地被调整以实现任务特异性,以便在现实世界的决策系统中部署。之前的几项研究通过研究微调适应策略对模型公平性的影响,调查了偏见转移假设 (BTH),发现在使用微调进行调整时,预训练的屏蔽语言模型中的公平性对模型公平性的影响有限。在这项工作中,我们将 BTH 的研究扩展到提示适应下的因果模型,因为提示是一种可访问且计算效率高的方式来部署……