Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

Athena:使用法学硕士的迭代支架应用程序生成的中间表示

Athena: Intermediate Representations for Iterative Scaffolded App Generation with an LLM

使用大型语言模型 (LLM) 生成完整用户界面的代码具有挑战性。用户界面很复杂,它们的实现通常由多个相互关联的文件组成,这些文件共同指定每个屏幕的内容、屏幕之间的导航流以及整个应用程序中使用的数据模型。为 LLM 制作包含足够详细信息以生成完整用户界面的单个提示具有挑战性,即使如此,结果通常是一个大且难以理解的文件,其中包含所有生成的...

重新审视大型语言模型训练中下游指标的扩展属性

Revisiting the Scaling Properties of Downstream Metrics in Large Language Model Training

虽然大型语言模型 (LLM) 的缩放法则传统上关注预训练损失等代理指标,但预测下游任务性能被认为是不可靠的。本文提出了一个直接框架来对培训预算中的基准性能扩展进行建模,从而挑战了这一观点。我们发现,对于固定的令牌与参数比,简单的幂律可以准确地描述多个流行下游任务的日志精度的缩放行为。我们的结果表明,直接方法比之前提出的两阶段程序更好地推断......

3D 高斯泼溅的直接感知优化

Drop-In Perceptual Optimization for 3D Gaussian Splatting

尽管 3D 高斯泼溅 (3DGS) 方法的输出最终被人类观看者使用,但它们通常依赖于像素级损失的临时组合,从而导致渲染模糊。为了解决这个问题,我们通过搜索不同的失真损失集来系统地探索 3DGS 的感知优化策略。我们对 3DGS 进行了首次大规模人类主观研究,涉及多个数据集和 3DGS 框架中的 39,320 个成对评分。 Wasserstein Distortion 的常规版本(我们称之为 WD-R)成为明显的赢家,擅长......

思考未来:Transformers 的潜在前瞻训练

Thinking into the Future: Latent Lookahead Training for Transformers

本文被 ICLR 的潜在与内隐思维研讨会 - 超越 CoT 推理 2026 接受。使用下一个标记预测训练的自回归语言模型通过一次采样一个离散标记来生成文本。尽管具有很强的可扩展性,但这个目标迫使模型在每一步都做出承诺,从而阻止它探索或反思多个看似合理的延续。此外,跨代币的计算分配是统一的;每个令牌都是基于单个前向传递形成的,在困难令牌的情况下可能会限制模型的表达能力......

独家自注意力

Exclusive Self Attention

我们引入了专有自注意力(XSA),这是自注意力(SA)的简单修改,可以提高 Transformer 的序列建模性能。关键思想是限制注意力仅捕获与代币自身价值向量正交的信息(从而排除自身位置的信息),从而鼓励更好的上下文建模。在标准语言建模任务上进行评估时,XSA 在模型大小高达 2.7B 参数的情况下始终优于 SA,并且随着序列长度的增长显示出越来越大的增益。

SafetyPairs:通过反事实图像生成隔离安全关键图像特征

SafetyPairs: Isolating Safety Critical Image Features with Counterfactual Image Generation

本文被 ICLR 2026 的可信人工智能原理设计 — 可解释性、稳健性和跨模态安全性研讨会接受。到底是什么导致特定图像不安全?系统地区分良性图像和有问题的图像是一个具有挑战性的问题,因为图像的细微变化(例如侮辱性手势或符号)可能会极大地改变其安全含义。然而,现有的图像安全数据集粗糙且模糊,仅提供广泛的安全标签,而没有隔离导致这些差异的特定特征。我们介绍...

根据代币进行训练,根据概念进行校准:法学硕士中语义校准的出现

Trained on Tokens, Calibrated on Concepts: The Emergence of Semantic Calibration in LLMs

大型语言模型 (LLM) 通常缺乏对其输出有意义的置信度估计。虽然众所周知,基础法学硕士会表现出下一个令牌校准,但目前尚不清楚他们是否能够评估其响应超出令牌级别的实际含义的信心。我们发现,当使用某种基于采样的语义校准概念时,基础法学硕士的校准效果非常好:它们可以有意义地评估开放域问答任务的置信度,尽管没有经过明确的培训。我们的主要理论贡献建立了一种机制,解释为什么语义......

通过探索扩展代理的综合任务生成

Scaling Synthetic Task Generation for Agents via Exploration

用于构建交互式代理的训练后多模式大型语言模型 (MLLM) 在计算机使用、网络导航和机器人等领域具有广阔的前景。扩展此类后期训练的一个关键挑战是缺乏高质量的下游代理任务数据集,这些数据集的任务是多样化的、可行的和可验证的。现有的任务生成方法严重依赖人工注释或用有限的下游环境信息提示 MLLM,这种方法要么成本高昂,要么可扩展性差,因为它生成的任务覆盖范围有限。为了解决这个问题,我们推出了自动播放,一个可扩展的......

语言模型从混合到专业领域的最佳分割

Optimal Splitting of Language Models from Mixtures to Specialized Domains

本文在 ICLR 2026 基础模型导航和解决数据问题研讨会上被接受。由于可用预训练数据的规模和多样性,语言模型在各种知识、语言和推理任务上取得了令人印象深刻的性能。标准训练方法是一个两阶段范例:首先对完整的数据语料库进行预训练,然后对完整语料库中的高质量、专业数据的子集进行专门化。在多领域设置中,这涉及在每个专门领域上持续预训练多个模型,称为……

Prose2Policy (P2P):一个实用的法学硕士管道,用于将自然语言访问策略转换为可执行的 Rego

Prose2Policy (P2P): A Practical LLM Pipeline for Translating Natural-Language Access Policies into Executable Rego

Prose2Policy(P2P)是一个基于LLM的实用工具,它将自然语言访问控制策略(NLACP)转换为可执行的Rego代码(开放策略代理(OPA)的策略语言)。它提供了一个模块化的端到端管道,可以执行策略检测、组件提取、模式验证、linting、编译、自动测试生成和执行。 Prose2Policy 旨在弥合人类可读访问要求和机器可执行策略即代码 (PaC) 之间的差距,同时强调部署可靠性和可审核性。我们在 ACRE 上评估了 Prose2Policy...

Goldilocks RL:调整任务难度以逃避推理奖励稀疏

Goldilocks RL: Tuning Task Difficulty to Escape Sparse Rewards for Reasoning

强化学习已成为解锁大型语言模型推理能力的强大范例。然而,依赖稀疏的奖励使得这个过程的样本效率非常低,因为模型必须以最少的反馈来导航巨大的搜索空间。虽然经典课程学习的目的是通过根据复杂性对数据进行排序来缓解这种情况,但特定模型的正确排序通常是不清楚的。为了解决这个问题,我们提出了 Goldilocks,这是一种新颖的教师驱动的数据采样策略,旨在预测学生模型的每个问题的难度。教师模型...

AMES:通过后期交互检索进行近似多模式企业搜索

AMES: Approximate Multi-modal Enterprise Search via Late Interaction Retrieval

我们提出了 AMES(近似多模式企业搜索),这是一种与后端无关的统一多模式后期交互检索架构。 AMES 证明,细粒度多模式后期交互检索可以部署在生产级企业搜索引擎中,而无需重新设计架构。使用多向量编码器将文本标记、图像块和视频帧嵌入到共享表示空间中,从而无需特定于模态的检索逻辑即可实现跨模态检索。 AMES 采用两阶段管道:并行令牌级 ANN 搜索,每个…

TrajTok:学习轨迹标记可实现更好的视频理解

TrajTok: Learning Trajectory Tokens enables better Video Understanding

视频模型中的标记化(通常通过补丁化)会生成过多且冗余的标记。这严重限制了视频效率和可扩展性。虽然最近基于轨迹的标记器通过将视频持续时间与标记计数解耦提供了一种有前途的解决方案,但它们依赖于复杂的外部分段和跟踪管道,这些管道速度缓慢且与任务无关。我们提出 TrajTok,一个端到端视频标记器模块,它与视频模型完全集成并共同训练以实现下游目标,动态调整其标记粒度以适应语义复杂性......

RubiCap:用于密集图像字幕的 Rubric 引导强化学习

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

密集图像字幕对于视觉语言预训练和文本到图像生成中的跨模式对齐至关重要,但扩展专家质量注释的成本却极其昂贵。虽然通过强大的视觉语言模型 (VLM) 进行合成字幕是一种实用的替代方案,但监督蒸馏通常会产生有限的输出多样性和弱泛化性。强化学习(RL)可以克服这些限制,但迄今为止它的成功主要集中在依赖确定性检查器的可验证领域——这是开放式字幕所不具备的奢侈品。我们……

多语言推理健身房:程序推理环境的多语言扩展

Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments

我们提出了多语言推理 Gym,它是 Reasoning Gym(Stojanovski 等人,2025)的扩展,它可以在程序上生成跨 14 种语言的可验证推理问题。我们翻译 94 项任务的模板,并以 10 种语言进行母语验证,并进行有针对性的代码或模板调整,以确保语言的自然性。多语言推理 Gym 保留了原始 Reasoning Gym 中使用的程序生成方法的核心优势,例如几乎无限的问题实例生成和可调整的难度,并且仍然可直接用于强化......

mAceReason-Math:为 RLVR 准备的高质量多语言数学问题数据集

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

带可验证奖励的强化学习 (RLVR) 已成功应用于显着提升预训练大型语言模型的能力,特别是在数学和逻辑问题领域。然而,当前的研究和可用的训练数据集仍然以英语为中心。虽然过去已经创建了多语言训练数据和基准,但它们在创建时并未考虑到 RLVR 和当前模型的功能,而且它们的难度通常太低,无法为当前模型提供适当的训练信号。为了解决这一差距,我们提供了 mAceReason-Math,...

LiTo:表面光场标记化

LiTo: Surface Light Field Tokenization

我们提出了一种 3D 潜在表示,可以对对象几何形状和依赖于视图的外观进行联合建模。大多数先前的工作都集中于重建 3D 几何或预测与视图无关的漫反射外观,因此很难捕捉真实的视图相关效果。我们的方法利用 RGB 深度图像提供表面光场的样本。通过将该表面光场的随机子样本编码为一组紧凑的潜在向量,我们的模型学会了在统一的 3D 潜在空间中表示几何形状和外观。这种表示再现了视图相关的...

半离散耦合的流量匹配

Flow Matching with Semidiscrete Couplings

参数化为与时间相关的速度场的流动模型可以通过积分 ODE 从噪声生成数据。这些模型通常使用流匹配进行训练,即通过对噪声和目标点 (x0,x1)(\mathbf{x}_0, \mathbf{x}_1)(x0​,x1​) 的随机对进行采样,并确保沿分段链接评估时速度场平均与 x1−x0\mathbf{x}_1 - \mathbf{x}_0x1​−x0​ 对齐x0\mathbf{x}_0x0​ 到 x1\mathbf{x}_1x1​。虽然默认情况下这些对是独立采样的,但也可以通过将 nnn 噪声批次与 nnn 目标匹配来更仔细地选择它们......