Apple Machine Learning Research at ICLR 2026
Apple 正在通过基础研究推进人工智能和机器学习,其中大部分研究成果通过出版物和会议参与进行分享,以加速这一重要领域的进展并支持更广泛的社区。本周,第十四届学习表征国际会议 (ICLR) 将在巴西里约热内卢举行,Apple 很荣幸能够再次参与研究界的这一重要活动,并为其提供赞助。在主会议和相关研讨会上,Apple 研究人员将展示跨各种主题的新研究……
Can Large Language Models Understand Context?
理解上下文是理解人类语言的关键,人们越来越多地看到大型语言模型 (LLM) 在令人印象深刻的程度上展示了这种能力。然而,尽管法学硕士的评估涵盖了自然语言处理领域的各个领域,但对探讨其理解上下文特征的语言能力的关注有限。本文通过调整现有数据集以适应生成模型的评估,引入了上下文理解基准。该基准测试由四个不同的任务和九个数据集组成……
What Do Your Logits Know? (The Answer May Surprise You!)
最近的工作表明,探索模型内部结构可以揭示模型生成中不明显的大量信息。这带来了无意或恶意信息泄露的风险,模型用户能够了解模型所有者认为无法访问的信息。使用视觉语言模型作为测试平台,我们首次系统地比较了不同“表征级别”保留的信息,因为它是通过两个自然瓶颈从残差流中编码的丰富信息中压缩而来的:残差的低维投影......
International Conference on Learning Representations (ICLR) 2026
Apple 将于 4 月 23 日至 27 日在巴西里约热内卢举行的年度国际学习表征会议 (ICLR) 上展示新的研究成果。我们很荣幸再次赞助这次会议,该会议汇集了专注于深度学习的科学和工业研究社区。以下是 Apple 参加 ICLR 2026 的概述。
MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining
本文在 ICLR 2026 的导航和解决基础模型数据问题研讨会 (NADPFM) 上被接受。原则上的领域重新加权可以大幅提高样本效率和下游泛化能力;然而,多模式预训练的数据混合优化仍未得到充分探索。当前的多模式训练方法仅从数据格式或任务类型等单一角度调整混合物。我们介绍 MixAtlas,这是一个通过系统域分解和更小的代理模型进行计算高效的多模态混合优化的原则框架......
Efficient Privacy Loss Accounting for Subsampling and Random Allocation
我们考虑采样方案的隐私放大属性,其中用户的数据在从 t 个步骤的序列(或集合)中随机且均匀选择的 k 个步骤中使用。这种采样方案最近已应用于差分私有优化(Chua et al., 2024a;Choquette-Choo et al., 2025)和通信高效的高维私有聚合(Asi et al., 2025)的背景下,它被证明比标准泊松采样具有效用优势。对这种抽样方案的理论分析(Feldman & Shenfeld,2025;Dong 等人,2025)得出……
Cram Less to Fit More: Training Data Pruning Improves Memorization of Facts
本文在 ICLR 2026 基础模型导航和解决数据问题研讨会上被接受。大型语言模型 (LLM) 可能很难记住其参数中的事实知识,通常会导致幻觉和在知识密集型任务中表现不佳。在本文中,我们从信息论的角度将事实记忆形式化,并研究训练数据分布如何影响事实准确性。我们表明,每当训练数据事实中包含的信息量超过模型时,事实准确性就不是最佳的(低于容量限制)......
ACM Human-Computer Interaction Conference (CHI) 2026
Apple 将于 4 月 13 日至 17 日在西班牙巴塞罗那举行的年度 ACM(计算机协会)CHI 计算系统人为因素会议上展示新的研究成果。我们很荣幸再次赞助该会议,该会议汇集了专注于人机交互的科学和工业研究社区。以下是 Apple 参与 CHI 2026 的概述。
A Theoretical Framework for Acoustic Neighbor Embeddings
本文提供了一个解释声学邻域嵌入的理论框架,声学邻域嵌入是固定维嵌入空间中可变宽度音频或文本的语音内容的表示。基于单词之间语音相似性的一般定量定义,提出了嵌入之间距离的概率解释。这为我们提供了一个以原则性方式理解和应用嵌入的框架。显示了支持均匀簇各向同性近似的理论和经验证据,这使我们能够......
LaCy: What Small Language Models Can and Should Learn is Not Just a Question of Loss
本文在 ICLR 基于 LLM 的代理系统内存研讨会上被接受。语言模型不断发展,将更多的世界知识压缩到其参数中,但可以预训练到其中的知识受到其参数大小的上限。特别是小语言模型(SLM)的容量是有限的,导致实际上不正确的生成。这个问题通常可以通过让 SLM 访问外部源来缓解:查询更大模型、文档或数据库的能力。在此背景下,我们研究的根本问题是……
Governance-Aware Agent Telemetry for Closed-Loop Enforcement in Multi-Agent AI Systems
企业多代理人工智能系统每小时产生数千次代理间交互,但现有的可观察性工具捕获这些依赖关系而不强制执行任何操作。 OpenTelemetry 和 Langfuse 收集遥测数据,但将治理视为下游分析问题,而不是实时执行目标。其结果是出现“观察但不采取行动”的差距,只有在造成损害后才会发现违反政策的行为。我们提出了治理感知代理遥测(GAAT),这是一种参考架构,可以闭合遥测收集和多代理自动策略执行之间的循环......
SQUIRE: Interactive UI Authoring via Slot QUery Intermediate REpresentations
前端开发人员创建 UI 原型来评估替代方案,这是一个反复迭代和细化的耗时过程。生成式 AI 代码助手只需通过聊天界面提示即可实现快速原型设计,而无需编写代码。然而,虽然这种交互为开发人员提供了灵活性,因为他们可以编写他们想要的任何提示,但它使得控制生成的内容变得具有挑战性。首先,自然语言本身可能含糊不清,使得开发人员很难准确地传达他们的意图。其次,模型可能会做出不可预测的响应……
Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment
尽管大型语言模型 (LLM) 具有复杂的通用功能,但它通常无法满足不同的个人偏好,因为标准的训练后方法(例如带有人类反馈的强化学习 (RLHF))会针对单一的全局目标进行优化。虽然组相对策略优化(GRPO)是一种广泛采用的同策略强化学习框架,但其基于组的归一化隐式假设所有样本都是可交换的,从而在个性化设置中继承了这一限制。这个假设将不同的用户奖励分布和......
ProText: A Benchmark Dataset for Measuring (Mis)gendering in Long-Form Texts
我们引入了 ProText,这是一个用于测量风格多样的长篇英语文本中的性别和性别错误的数据集。 ProText 跨越三个维度:主题名词(姓名、职业、头衔、亲属称谓)、主题类别(典型男性、典型女性、中性/非性别)和代词类别(男性、女性、中性、无)。该数据集旨在探索文本转换中的(错误)性别,例如使用最先进的大型语言模型进行摘要和重写,超越传统的代词解析基准并超越......
Entropy-Preserving Reinforcement Learning
策略梯度算法推动了语言模型推理的许多最新进展。他们的一个吸引人的特性是他们能够从自己的轨迹探索中学习,这一过程对于培育多样化和创造性的解决方案至关重要。正如我们在本文中所示,作为训练的一部分,许多策略梯度算法自然会减少熵,从而减少探索轨迹的多样性,从而产生越来越限制其探索能力的策略。在本文中,我们认为应该在整个训练过程中积极监测和控制熵。我们正式分析...
Beyond Real Data: Synthetic Data through the Lens of Regularization
当真实数据稀缺时,合成数据可以提高泛化能力,但过度依赖可能会导致分布不匹配,从而降低性能。在本文中,我们提出了一个学习理论框架来量化合成数据和真实数据之间的权衡。我们的方法利用算法稳定性来推导泛化误差范围,描述最佳合成与真实数据比率,以最小化预期测试误差作为真实分布和合成分布之间 Wasserstein 距离的函数。我们在内核脊的设置中激发我们的框架......
Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting
现有的前馈 3D 高斯分布方法可预测像素对齐的图元,从而导致图元数量随着分辨率的增加而呈二次方增长。这从根本上限制了它们的可扩展性,使得 4K 等高分辨率合成变得棘手。我们引入了 LGTM(Less Gaussians,Texture More),这是一个克服分辨率缩放障碍的前馈框架。通过预测与每个基元纹理相结合的紧凑高斯基元,LGTM 将几何复杂性与渲染分辨率分离。这种方法可以实现高保真 4K 新颖视图合成,而无需……
Athena: Intermediate Representations for Iterative Scaffolded App Generation with an LLM
使用大型语言模型 (LLM) 生成完整用户界面的代码具有挑战性。用户界面很复杂,它们的实现通常由多个相互关联的文件组成,这些文件共同指定每个屏幕的内容、屏幕之间的导航流以及整个应用程序中使用的数据模型。为 LLM 制作包含足够详细信息以生成完整用户界面的单个提示具有挑战性,即使如此,结果通常是一个大且难以理解的文件,其中包含所有生成的...