Introducing the Third Generation of Apple’s Foundation Models
我们的下一代 Apple Intelligence 以用户为中心,深入集成到我们的操作系统中,并由以隐私为核心的大胆新架构提供支持。该架构的核心是我们的第三代 Apple 基础模型 (AFM),这是与 Google 合作定制的由五个基础模型组成的系列。这些涵盖从设备上的模型到在私有云计算上运行的基于服务器的模型。Apple 基础模型旨在为我们的用户解锁广泛的有用体验,例如全新的 Siri 和智能工具,使......
IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2026
Apple 将在年度 IEEE/CVF 计算机视觉和模式识别 (CVPR) 会议上展示新的研究成果,该会议将于 6 月 3 日至 7 日在丹佛科罗拉多会议中心举行。我们很荣幸能够赞助这次会议,该会议汇集了计算机视觉和模式识别领域的科学和工业研究界。以下是 Apple 参加 CVPR 2026 的概述。
VSAS-Bench: Real-Time Evaluation of Visual Streaming Assistant Models
流式视觉语言模型 (VLM) 在给定指令提示和在线输入帧流的情况下不断生成响应。这是实时视觉助手的核心机制。现有的 VLM 框架主要评估离线环境中的模型。相比之下,流式 VLM 的性能取决于纯视频理解之外的其他指标,包括主动性(反映模型响应的及时性)和一致性(反映模型响应随时间的稳健性)。为了解决这个限制,我们提出了 VSAS-Bench,一个新的......
BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning
图像字幕是计算机视觉中最基本的任务之一。由于其开放性,它在多模态大语言模型(MLLM)时代受到了极大的关注。为了追求更加详细和准确的字幕,最近的工作越来越多地转向强化学习(RL)。然而,现有的字幕强化学习方法和评估指标通常强调字幕质量的狭隘概念,从而导致字幕核心维度之间的权衡。例如,以实用为导向的目标可能会鼓励嘈杂、幻觉或过长的字幕……
Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures
我们提出了 HeadsUp,这是一种可扩展的前馈方法,用于从大规模多相机设置重建高质量 3D 高斯头部。我们的方法采用高效的编码器-解码器架构,将输入视图压缩为紧凑的潜在表示。然后,该潜在表示被解码为一组锚定到中性头部模板的 UV 参数化 3D 高斯函数。这种 UV 表示将 3D 高斯的数量与输入图像的数量和分辨率解耦,从而能够使用许多高分辨率输入视图进行训练。我们在......上训练和评估我们的模型
RVPO: Risk-Sensitive Alignment via Variance Regularization
当前无批评的 RLHF 方法通过算术平均值聚合多目标奖励,使它们容易受到约束忽略:一个目标的巨大成功可以在数字上抵消其他目标的关键失败(例如安全或格式),掩盖对于可靠的多目标对齐至关重要的低绩效“瓶颈”奖励。我们提出奖励方差策略优化(RVPO),这是一种风险敏感的框架,在优势聚合过程中惩罚奖励间的方差,将目标从“最大化总和”转变为“最大化一致性”。我们通过泰勒展开式展示......
Velox: Learning Representations of 4D Geometry and Appearance
我们引入了一个用于学习 4D 对象的潜在表示的框架,该表示是描述性的,忠实地捕获对象的几何形状和外观;压缩,有助于提高下游效率;并且易于访问,需要最少的输入(即非结构化动态点云)来构建。具体来说,Velox 训练编码器将时空颜色点云压缩为一组动态形状标记。这些标记使用两个互补的解码器进行监督:一个 4D 表面解码器,它对捕获几何形状的时变表面分布进行建模;和高斯解码器......
Apple Workshop on Privacy-Preserving Machine Learning & AI 2026
在 Apple,我们相信隐私是一项基本人权。随着人工智能能力的增强并越来越融入人们的日常生活,推进隐私保护技术的研究对于确保用户在享受创新人工智能体验的同时保护隐私变得越来越重要。Apple 的基础研究一直在推动这一领域的最先进技术,今年早些时候,我们主办了隐私保护机器学习与人工智能研讨会。这次为期两天的活动汇集了苹果研究人员和更广泛的研究社区的成员,讨论......
What Matters in Practical Learned Image Compression
学习编解码器相对于硬编码的传统编解码器的主要区别之一是它们能够直接优化以吸引人类视觉系统。尽管有这种潜力,但一种可感知且实用的图像编解码器尚未被提出。在这项工作中,我们的目标是缩小这一差距。我们对控制实际学习图像编解码器设计的关键建模选择进行了全面的研究,并针对感知质量和运行时间进行了联合优化 - 包括在消融中的几种新技术。然后我们执行性能感知神经......
Text-Conditional JEPA for Learning Semantically Rich Visual Representations
基于图像的联合嵌入预测架构 (I-JEPA) 提供了一种通过屏蔽特征预测进行视觉自监督学习的有前途的方法。然而,由于屏蔽位置固有的视觉不确定性,特征预测仍然具有挑战性,并且可能无法学习语义表示。在这项工作中,我们提出了文本条件 JEPA(TC-JEPA),它使用图像标题来减少预测的不确定性。具体来说,我们使用细粒度文本调节器来调整预测的补丁特征,该调节器计算输入文本标记上的稀疏交叉注意力。有了这样的……
多模式代理的真正空间智能超越了低级几何感知,从了解事物的位置发展到理解它们的用途。虽然 VSI-Bench 等现有基准可以有效评估这一基础几何阶段,但它们未能探索基础智能所必需的高阶认知能力。为了弥补这一差距,我们引入了空间功能智能基准 (SFI-Bench),这是一个基于视频的基准,包含来自多样化、以自我为中心的室内视频扫描的 1700 多个问题。 SFI-Bench 旨在...
Normalizing Flows with Iterative Denoising
归一化流 (NF) 是基于可能性的经典方法系列,已重新受到关注。 TARFlow 等最近的努力表明,NF 能够在图像建模任务上取得有前景的性能,使其成为扩散模型等其他方法的可行替代方案。在这项工作中,我们通过引入迭代 TARFlow (iTARFlow) 进一步推进规范化流生成模型的状态。与扩散模型不同,iTARFlow 在训练期间保持完全端到端、基于可能性的目标。在采样过程中,它执行自回归生成......
SpecMD: A Comprehensive Study on Speculative Expert Prefetching
专家混合 (MoE) 模型支持稀疏专家激活,这意味着每次推理期间仅使用模型参数的子集。然而,要将这种稀疏性转化为实际性能,需要专业的缓存机制。以前的工作提出了以硬件为中心的缓存策略,但是这些不同的缓存策略如何相互作用以及不同的硬件规范仍然知之甚少。为了解决这一差距,我们开发了 SpecMD,这是一个标准化框架,用于对各种硬件配置上的临时缓存策略进行基准测试。使用 SpecMD...
Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing
为高吞吐量的 Transformer 语言模型提供服务需要缓存键值 (KV),以避免自回归生成过程中的冗余计算。 KV 缓存的内存占用量很大,并且严重影响服务成本。这项工作旨在减少这些内存需求。虽然最近的工作主要通过沿时间轴的压缩和驱逐来减少 KV 缓存,但我们认为深度维度提供了一种正交且稳健的优化途径。尽管之前的研究表明每个层的完整缓存是多余的,但实现......
PORTool: Importance-Aware Policy Optimization with Rewarded Tree for Multi-Tool-Integrated Reasoning
多工具集成推理使 LLM 授权的工具使用代理能够通过将自然语言推理与对外部工具的调用交错来解决复杂的任务。然而,使用仅结果奖励来训练此类代理会受到信用分配模糊性的影响,从而模糊了哪些中间步骤(或工具使用决策)会导致成功或失败。在本文中,我们提出了 PORTool,这是一种重要性感知的策略优化算法,可以通过结果级别的监督来增强代理的工具使用能力,同时在步骤级别上分配奖励。具体来说,PORTool 会产生奖励......
Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents
本文被 ACL 2026 第五届自然语言生成、评估和指标研讨会接受。工具调用代理在工具选择、参数准确性和范围识别方面进行评估,但 LLM 轨迹评估本质上仍然是事后评估。与活动执行循环断开连接,此类评估可以识别通常通过即时调整或重新训练来解决的错误,并且从根本上无法实时纠正代理。为了弥补这一差距,我们在推理时将评估转移到执行循环中:专门的审阅代理评估......
Bootstrapping Sign Language Annotations with Sign Language Models
人工智能驱动的手语解释因缺乏高质量的注释数据而受到限制。包括 ASL STEM Wiki 和 FLEURS-ASL 在内的新数据集包含专业解释者和数百小时的数据,但仅保留部分注释,因此未得到充分利用,部分原因是这种规模的注释成本过高。在这项工作中,我们开发了一个伪注释管道,以签名视频和英语作为输入,并输出一组可能的注释的排名,包括注释、手指拼写单词和符号分类器的时间间隔。我们的管道使用来自...的稀疏预测
International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2026
Apple 将于 5 月 4 日至 8 日在西班牙巴塞罗那举行的年度国际声学、语音和信号处理会议 (ICASSP) 上展示新的研究成果。我们很荣幸再次赞助该会议,该会议汇集了专注于信号处理及其应用的科学和工业研究界。以下是 Apple 参加 ICASSP 2026 的概述。