Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

缩小法学硕士文本和语音理解之间的差距

Closing the Gap Between Text and Speech Understanding in LLMs

大型语言模型 (LLM) 可以进行调整,将其文本功能扩展到语音输入。然而,这些适应语音的法学硕士在语言理解任务上始终表现不佳,甚至低于基于文本的法学硕士,甚至级联管道。我们将这种缺陷称为文本-语音理解差距:相对于基于原始文本的 LLM 处理等效文本,当适应语音的 LLM 处理语音输入时观察到的性能下降。最近缩小这一差距的方法要么依赖文本语料库的大规模语音合成,但成本高昂且严重依赖……

建设性电路放大:通过有针对性的子网络更新改进法学硕士的数学推理

Constructive Circuit Amplification: Improving Math Reasoning in LLMs via Targeted Sub-Network Updates

之前对法学硕士内部运作的研究发现了稀疏子网络,通常称为电路,负责执行特定任务。此外,研究表明,通过微调来提高模型性能通常来自于模型中现有电路的强化。总而言之,这些发现表明直接干预此类电路以进行精确的、针对任务的更新的可能性。受这些发现的启发,我们提出了一种称为“结构性电路放大”的新方法,它可以识别关键令牌……

A.R.I.S.:利用深度学习进行电子垃圾分类的自动回收识别系统

A.R.I.S.: Automated Recycling Identification System for E-Waste Classification Using Deep Learning

传统的电子回收流程由于材料分离和识别能力不足而遭受严重的资源损失,限制了材料的回收。我们推出 A.R.I.S. (自动回收识别系统)是一种低成本便携式电子垃圾粉碎分拣机,可解决这一效率差距。该系统采用YOLOx模型对金属、塑料和电路板进行实时分类,实现低推理延迟和高检测精度。实验评估产生了 90% 的总体精度、82.2% 的平均精度 (mAP) 和 84% 的分类…

CoT 推理的潜力:仔细研究跟踪动态

The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics

思想链 (CoT) 提示是一种事实上的标准技术,可从大型语言模型 (LLM) 中引出类似推理的响应,使他们能够在给出最终答案之前阐明各个步骤。虽然与类人推理的相似性是不可否认的,但支撑 CoT 推理成功的驱动力仍然很大程度上不清楚。在这项工作中,我们对源自竞赛级数学问题的 CoT 痕迹进行了深入分析,目的是更好地理解 CoT 如何以及哪些部分实际上对最终答案做出了贡献。为此……

depyf:为机器学习研究人员打开PyTorch编译器的不透明盒子

depyf: Open the Opaque Box of PyTorch Compiler for Machine Learning Researchers

PyTorch \texttt{2.x} 引入了一个旨在加速深度学习程序的编译器。然而,对于机器学习研究人员来说,充分发挥 PyTorch 编译器的潜力可能具有挑战性。编译器在 Python 字节码级别运行,使其看起来像一个不透明的盒子。为了解决这个问题,我们引入了 \texttt{depyf},这是一个旨在揭开 PyTorch 编译器内部工作原理的工具。 \texttt{depyf} 将 PyTorch 生成的字节码反编译回等效的源代码,并在内存中的代码对象与其磁盘上的源代码之间建立连接...

AMUSE:用于代理多说话者理解的视听基准和对齐框架

AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding

最近的多模态大语言模型 (MLLM),例如 GPT-4o 和 Qwen3-Omni,表现出很强的感知能力,但在多说话者、以对话为中心的环境中表现不佳,这些环境需要代理推理跟踪谁说话、维持角色以及跨时间的基础事件。这些场景是多模式音频-视频理解的核心,其中模型必须在会话视频助手和会议分析等应用程序中联合推理音频和视频流。我们引入 AMUSE,这是一个围绕本质上代理的任务设计的基准,需要模型分解复杂的......

超越单一提取器:重新思考 LLM 预训练的 HTML 到文本提取

Beyond a Single Extractor: Re-thinking HTML-to-Text Extraction for LLM Pretraining

构建网络规模的 LLM 预训练数据集的首要预处理步骤之一涉及从 HTML 中提取文本。尽管网络内容多种多样,但现有的开源数据集主要对所有网页应用单个固定提取器。在这项工作中,我们调查这种做法是否会导致互联网数据的覆盖和利用不理想。我们首先表明,虽然不同的提取器可能会在标准语言理解任务上产生相似的模型性能,但在固定过滤管道中幸存的页面可能会有很大差异。这表明一个简单的...

Apple 推理与规划研讨会 2025

Apple Workshop on Reasoning and Planning 2025

推理和规划是智能人工智能系统的基石,使它们能够规划、交互、适应并最终独立运行。在 Apple,理解和推进人工智能系统的推理能力长期以来一直是一个活跃的研究领域,并产生了大量出版物,这些出版物既探索推进推理前沿的新技术,又进一步加深了该领域对当前方法的能力(和局限性)的理解。去年,Apple 主办了推理和规划研讨会,汇集了 Apple 研究人员和……

学习从键值缓存中逐出

Learning to Evict from Key-Value Cache

大型语言模型 (LLM) 规模的不断增长给高效推理带来了挑战,这主要是由于自回归键值 (KV) 缓存的内存需求。现有的逐出或压缩方法可以降低成本,但依赖于启发法,例如新近度或过去的注意力分数,它们只能作为代币未来效用的间接代理,并引入计算开销。我们将 KV 缓存驱逐重新定义为强化学习 (RL) 问题:学习根据令牌对未来解码的预测有用性对令牌进行排名。为此,我们引入了 KV 策略(KVP),这是一个......的框架

通过检索增强生成和多目标对齐统一查询自动完成中的排名和生成

Unifying Ranking and Generation in Query Auto-Completion via Retrieval-Augmented Generation and Multi-Objective Alignment

查询自动完成 (QAC) 是现代搜索系统的一项重要功能,它通过在用户键入时建议完成来提高搜索效率。然而,现有的方法面临着根本性的挑战:传统的检索和排序管道的长尾覆盖率很差,需要大量的特征工程,而最近的生成方法则存在幻觉和安全风险。我们提出了一个统一的框架,通过检索增强生成(RAG)和多目标直接偏好优化(DPO)将 QAC 重新表述为端到端列表生成。我们的方法......

Ferret-UI Lite:构建小型设备上 GUI 代理的经验教训

Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents

开发与图形用户界面 (GUI) 有效交互的自主代理仍然是一个具有挑战性的开放问题,特别是对于小型设备上模型。在本文中,我们介绍了 Ferret-UI Lite,这是一种紧凑的端到端 GUI 代理,可以跨不同平台(包括移动、Web 和桌面)运行。利用为开发小型模型而优化的技术,我们通过从真实和合成来源中策划多样化的 GUI 数据混合物来构建我们的 3B Ferret-UI Lite 代理,通过思想链推理和可视化工具的使用来增强推理时性能,并且......

证明自己正确性的模型

Models That Prove Their Own Correctness

我们如何才能相信学习模型对特定感兴趣输入的正确性?模型精度通常是根据输入分布的平均值来衡量的,不保证任何固定输入。本文针对这个问题提出了一个有理论基础的解决方案:训练自我证明模型,通过交互式证明向验证算法 V 证明其输出的正确性。自证明模型满足以下条件:对于从给定分布采样的输入,模型以高概率生成正确的输出并成功证明其对 V 的正确性。...

分层 LLM 架构的异步验证语义缓存

Asynchronous Verified Semantic Caching for Tiered LLM Architectures

大型语言模型 (LLM) 现在位于搜索、辅助和代理工作流程的关键路径中,使得语义缓存对于降低推理成本和延迟至关重要。生产部署通常使用分层的静态-动态设计:从日志中挖掘的经过策划、离线审查的响应的静态缓存,由在线填充的动态缓存提供支持。在实践中,这两层通常都由单个嵌入相似性阈值控制,这会导致一个艰难的权衡:保守的阈值会错过安全重用的机会,而激进的阈值则可能会导致语义上不正确的服务......

一种用于自回归程序合成的小型系统,可实现受控实验

A Small-Scale System for Autoregressive Program Synthesis Enabling Controlled Experimentation

使用经过训练来完成真实程序的小型模型可以进行哪些研究?通常,研究人员通过大型语言模型(LLM)研究程序合成,这会带来一些问题,例如了解分布内或分布外的内容、了解微调效果、理解标记化的效果以及对进行实验的计算和存储提出更高的要求。我们提出了一个名为 Cadmus 的系统,其中包括一个整数虚拟机 (VM)、一个由不同任务的真实程序组成的数据集,以及一个经过 200 美元以下计算训练的自回归变压器模型……

联合变分不等式的更快速度

Faster Rates For Federated Variational Inequalities

在本文中,我们研究了用于解决随机变分不等式(VI)的联合优化,这是近年来引起越来越多关注的问题。尽管取得了实质性进展,但现有的收敛速度与联合凸优化已知的最先进边界之间仍然存在显着差距。在这项工作中,我们通过建立一系列改进的收敛率来解决这一限制。首先,我们证明,对于一般的平滑和单调变分不等式,经典的 Local Extra SGD 算法在精细分析下可以提供更严格的保证……

迹线长度是推理模型中的简单不确定性信号

Trace Length is a Simple Uncertainty Signal in Reasoning Models

法学硕士的不确定性量化是解决幻觉和其他限制其可靠部署的问题的关键研究方向。在这项工作中,我们证明推理轨迹长度是大型推理模型中简单且有用的置信度估计器。通过跨多个模型、数据集和提示的综合实验,我们表明迹线长度的表现与其他零样本置信度估计器(例如言语置信度)具有可比较但互补的方式。我们的工作表明,训练后推理从根本上改变了踪迹之间的关系……

映射计算机使用代理的用户体验设计空间

Mapping the Design Space of User Experience for Computer Use Agents

基于大型语言模型 (LLM) 的计算机使用代理通过与可用的 UI 元素交互来执行用户命令,但对于用户希望如何与这些代理交互或哪些设计因素对其用户体验 (UX) 至关重要,人们知之甚少。我们进行了一项两阶段的研究来绘制计算机使用代理的用户体验设计空间。在第一阶段,我们审查了现有系统,以制定用户体验考虑因素的分类法,然后通过采访八位用户体验和人工智能从业者来完善它。由此产生的分类法包括用户提示、可解释性、用户控制和用户……等类别。

并行轨道变压器:通过减少同步实现快速 GPU 推理

Parallel Track Transformers: Enabling Fast GPU Inference with Reduced Synchronization

基于 Transformer 的大型语言模型 (LLM) 的高效大规模推理仍然是一个基本的系统挑战,经常需要多 GPU 并行性来满足严格的延迟和吞吐量目标。传统的张量并行性会分解跨设备的矩阵运算,但会引入大量的 GPU 间同步,从而导致通信瓶颈和可扩展性下降。我们提出了并行轨道(PT)变压器,这是一种新颖的架构范例,可以重组计算以最小化跨设备依赖性。 PT 实现了高达 16 倍的减少……