International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2026
Apple 将于 5 月 4 日至 8 日在西班牙巴塞罗那举行的年度国际声学、语音和信号处理会议 (ICASSP) 上展示新的研究成果。我们很荣幸再次赞助该会议,该会议汇集了专注于信号处理及其应用的科学和工业研究界。以下是 Apple 参加 ICASSP 2026 的概述。
Adaptive Thinking: Large Language Models Know When to Think in Latent Space
大型语言模型 (LLM) 测试时计算的最新进展引入了在生成答案之前执行中间思想链 (CoT) 推理(思考)的功能。虽然增加思维预算可以在推理时实现平稳的性能改进,但对于实现计算最优推理,LLM 能力、查询复杂性和最佳预算分配之间的关系仍然知之甚少。为了应对这一挑战,我们利用自我一致性,即多个推理路径之间的一致性,作为思考必要性的代理。我们首先确定...
DSO: Direct Steering Optimization for Bias Mitigation
生成模型通常用于代表用户做出决策,例如视觉语言模型 (VLM) 可以识别房间中的哪个人是医生,以帮助视障人士。然而,VLM 的决策受到输入中人们所感知的人口统计特征的影响,这可能会导致有偏见的结果,例如未能将女性识别为医生。此外,当减少偏差导致性能损失时,用户可能对平衡偏差缓解与整体模型功能有不同的需求,这凸显了对能够实现可控偏差减少的方法的需求……
LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning
大型语言模型 (LLM) 通过思想链 (CoT) 生成展示其推理能力。然而,LLM 的自回归解码可能会限制以整体方式重新审视和完善早期代币的能力,这也可能导致对不同解决方案的低效探索。在本文中,我们提出了LaDiR(潜在扩散推理器),这是一种新颖的推理框架,它将连续潜在表示的表达能力与现有法学硕士潜在扩散模型的迭代细化能力相结合。我们首先构建一个结构化的潜在推理空间……
Local Mechanisms of Compositional Generalization in Conditional Diffusion
条件扩散模型似乎能够进行成分泛化,即为调节器的分布外组合生成令人信服的样本,但这种能力背后的机制仍不清楚。为了使这一点具体化,我们研究了长度泛化,即生成具有比训练期间看到的更多对象的图像的能力。在受控的 CLEVR 设置中(Johnson 等人,2017),我们发现在某些情况下可以实现长度泛化,但在其他情况下则不能,这表明模型有时只能学习底层的组成结构。然后我们调查......
StereoFoley: Object-Aware Stereo Audio Generation from Video
我们推出了 StereoFoley,这是一种视频到音频生成框架,可在 48 kHz 下产生语义对齐、时间同步和空间精确的立体声。虽然最近的生成视频到音频模型实现了强大的语义和时间保真度,但由于缺乏专业混合、空间精确的视频到音频数据集,它们在很大程度上仍然局限于单声道或无法提供对象感知的立体成像。首先,我们开发和训练一个从视频生成立体声音频的基本模型,在语义准确性和同步方面实现了最先进的水平。下一步...
Learning Long-Term Motion Embeddings for Efficient Kinematics Generation
理解和预测运动是视觉智能的基本组成部分。尽管现代视频模型表现出对场景动态的强大理解,但通过完整的视频合成探索多种可能的未来仍然效率极低。通过直接对从跟踪器模型获得的大规模轨迹中学习的长期运动嵌入进行操作,我们可以更有效地对场景动力学数量级进行建模。这使得能够有效地生成长而真实的运动,从而实现通过文本提示或空间戳指定的目标。为了实现这一目标,我们...
ParaRNN: Large-Scale Nonlinear RNNs, Trainable in Parallel
递归神经网络 (RNN) 天生适合高效推理,与基于注意力的架构相比,所需的内存和计算量要少得多,但其计算的顺序性历来使得将 RNN 扩展到数十亿个参数是不切实际的。 Apple 研究人员的一项新进展使 RNN 训练的效率显着提高 - 首次实现大规模训练,并扩大了从业者在设计 LLM 时可用的架构选择集,特别是对于资源受限的部署。在 ParaRNN:解锁并行训练......
Apple Machine Learning Research at ICLR 2026
Apple 正在通过基础研究推进人工智能和机器学习,其中大部分研究成果通过出版物和会议参与进行分享,以加速这一重要领域的进展并支持更广泛的社区。本周,第十四届学习表征国际会议 (ICLR) 将在巴西里约热内卢举行,Apple 很荣幸能够再次参与研究界的这一重要活动,并为其提供赞助。在主会议和相关研讨会上,Apple 研究人员将展示跨各种主题的新研究……
Can Large Language Models Understand Context?
理解上下文是理解人类语言的关键,人们越来越多地看到大型语言模型 (LLM) 在令人印象深刻的程度上展示了这种能力。然而,尽管法学硕士的评估涵盖了自然语言处理领域的各个领域,但对探讨其理解上下文特征的语言能力的关注有限。本文通过调整现有数据集以适应生成模型的评估,引入了上下文理解基准。该基准测试由四个不同的任务和九个数据集组成……
What Do Your Logits Know? (The Answer May Surprise You!)
最近的工作表明,探索模型内部结构可以揭示模型生成中不明显的大量信息。这带来了无意或恶意信息泄露的风险,模型用户能够了解模型所有者认为无法访问的信息。使用视觉语言模型作为测试平台,我们首次系统地比较了不同“表征级别”保留的信息,因为它是通过两个自然瓶颈从残差流中编码的丰富信息中压缩而来的:残差的低维投影......
International Conference on Learning Representations (ICLR) 2026
Apple 将于 4 月 23 日至 27 日在巴西里约热内卢举行的年度国际学习表征会议 (ICLR) 上展示新的研究成果。我们很荣幸再次赞助这次会议,该会议汇集了专注于深度学习的科学和工业研究社区。以下是 Apple 参加 ICLR 2026 的概述。
MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining
本文在 ICLR 2026 的导航和解决基础模型数据问题研讨会 (NADPFM) 上被接受。原则上的领域重新加权可以大幅提高样本效率和下游泛化能力;然而,多模式预训练的数据混合优化仍未得到充分探索。当前的多模式训练方法仅从数据格式或任务类型等单一角度调整混合物。我们介绍 MixAtlas,这是一个通过系统域分解和更小的代理模型进行计算高效的多模态混合优化的原则框架......
Efficient Privacy Loss Accounting for Subsampling and Random Allocation
我们考虑采样方案的隐私放大属性,其中用户的数据在从 t 个步骤的序列(或集合)中随机且均匀选择的 k 个步骤中使用。这种采样方案最近已应用于差分私有优化(Chua et al., 2024a;Choquette-Choo et al., 2025)和通信高效的高维私有聚合(Asi et al., 2025)的背景下,它被证明比标准泊松采样具有效用优势。对这种抽样方案的理论分析(Feldman & Shenfeld,2025;Dong 等人,2025)得出……
Cram Less to Fit More: Training Data Pruning Improves Memorization of Facts
本文在 ICLR 2026 基础模型导航和解决数据问题研讨会上被接受。大型语言模型 (LLM) 可能很难记住其参数中的事实知识,通常会导致幻觉和在知识密集型任务中表现不佳。在本文中,我们从信息论的角度将事实记忆形式化,并研究训练数据分布如何影响事实准确性。我们表明,每当训练数据事实中包含的信息量超过模型时,事实准确性就不是最佳的(低于容量限制)......
ACM Human-Computer Interaction Conference (CHI) 2026
Apple 将于 4 月 13 日至 17 日在西班牙巴塞罗那举行的年度 ACM(计算机协会)CHI 计算系统人为因素会议上展示新的研究成果。我们很荣幸再次赞助该会议,该会议汇集了专注于人机交互的科学和工业研究社区。以下是 Apple 参与 CHI 2026 的概述。
A Theoretical Framework for Acoustic Neighbor Embeddings
本文提供了一个解释声学邻域嵌入的理论框架,声学邻域嵌入是固定维嵌入空间中可变宽度音频或文本的语音内容的表示。基于单词之间语音相似性的一般定量定义,提出了嵌入之间距离的概率解释。这为我们提供了一个以原则性方式理解和应用嵌入的框架。显示了支持均匀簇各向同性近似的理论和经验证据,这使我们能够......
LaCy: What Small Language Models Can and Should Learn is Not Just a Question of Loss
本文在 ICLR 基于 LLM 的代理系统内存研讨会上被接受。语言模型不断发展,将更多的世界知识压缩到其参数中,但可以预训练到其中的知识受到其参数大小的上限。特别是小语言模型(SLM)的容量是有限的,导致实际上不正确的生成。这个问题通常可以通过让 SLM 访问外部源来缓解:查询更大模型、文档或数据库的能力。在此背景下,我们研究的根本问题是……