What Matters in Practical Learned Image Compression
学习编解码器相对于硬编码的传统编解码器的主要区别之一是它们能够直接优化以吸引人类视觉系统。尽管有这种潜力,但一种可感知且实用的图像编解码器尚未被提出。在这项工作中,我们的目标是缩小这一差距。我们对控制实际学习图像编解码器设计的关键建模选择进行了全面的研究,并针对感知质量和运行时间进行了联合优化 - 包括在消融中的几种新技术。然后我们执行性能感知神经......
Text-Conditional JEPA for Learning Semantically Rich Visual Representations
基于图像的联合嵌入预测架构 (I-JEPA) 提供了一种通过屏蔽特征预测进行视觉自监督学习的有前途的方法。然而,由于屏蔽位置固有的视觉不确定性,特征预测仍然具有挑战性,并且可能无法学习语义表示。在这项工作中,我们提出了文本条件 JEPA(TC-JEPA),它使用图像标题来减少预测的不确定性。具体来说,我们使用细粒度文本调节器来调整预测的补丁特征,该调节器计算输入文本标记上的稀疏交叉注意力。有了这样的……
Normalizing Flows with Iterative Denoising
归一化流 (NF) 是基于可能性的经典方法系列,已重新受到关注。 TARFlow 等最近的努力表明,NF 能够在图像建模任务上取得有前景的性能,使其成为扩散模型等其他方法的可行替代方案。在这项工作中,我们通过引入迭代 TARFlow (iTARFlow) 进一步推进规范化流生成模型的状态。与扩散模型不同,iTARFlow 在训练期间保持完全端到端、基于可能性的目标。在采样过程中,它执行自回归生成......
多模式代理的真正空间智能超越了低级几何感知,从了解事物的位置发展到理解它们的用途。虽然 VSI-Bench 等现有基准可以有效评估这一基础几何阶段,但它们未能探索基础智能所必需的高阶认知能力。为了弥补这一差距,我们引入了空间功能智能基准 (SFI-Bench),这是一个基于视频的基准,包含来自多样化、以自我为中心的室内视频扫描的 1700 多个问题。 SFI-Bench 旨在...
SpecMD: A Comprehensive Study on Speculative Expert Prefetching
专家混合 (MoE) 模型支持稀疏专家激活,这意味着每次推理期间仅使用模型参数的子集。然而,要将这种稀疏性转化为实际性能,需要专业的缓存机制。以前的工作提出了以硬件为中心的缓存策略,但是这些不同的缓存策略如何相互作用以及不同的硬件规范仍然知之甚少。为了解决这一差距,我们开发了 SpecMD,这是一个标准化框架,用于对各种硬件配置上的临时缓存策略进行基准测试。使用 SpecMD...
Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing
为高吞吐量的 Transformer 语言模型提供服务需要缓存键值 (KV),以避免自回归生成过程中的冗余计算。 KV 缓存的内存占用量很大,并且严重影响服务成本。这项工作旨在减少这些内存需求。虽然最近的工作主要通过沿时间轴的压缩和驱逐来减少 KV 缓存,但我们认为深度维度提供了一种正交且稳健的优化途径。尽管之前的研究表明每个层的完整缓存是多余的,但实现......
PORTool: Importance-Aware Policy Optimization with Rewarded Tree for Multi-Tool-Integrated Reasoning
多工具集成推理使 LLM 授权的工具使用代理能够通过将自然语言推理与对外部工具的调用交错来解决复杂的任务。然而,使用仅结果奖励来训练此类代理会受到信用分配模糊性的影响,从而模糊了哪些中间步骤(或工具使用决策)会导致成功或失败。在本文中,我们提出了 PORTool,这是一种重要性感知的策略优化算法,可以通过结果级别的监督来增强代理的工具使用能力,同时在步骤级别上分配奖励。具体来说,PORTool 会产生奖励......
Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents
本文被 ACL 2026 第五届自然语言生成、评估和指标研讨会接受。工具调用代理在工具选择、参数准确性和范围识别方面进行评估,但 LLM 轨迹评估本质上仍然是事后评估。与活动执行循环断开连接,此类评估可以识别通常通过即时调整或重新训练来解决的错误,并且从根本上无法实时纠正代理。为了弥补这一差距,我们在推理时将评估转移到执行循环中:专门的审阅代理评估......
STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flows
归一化流 (NF) 是基于端到端似然性的连续数据生成模型,最近因在图像生成方面取得的令人鼓舞的进展而重新受到关注。然而,在视频生成领域,时空复杂性和计算成本要高得多,最先进的系统几乎完全依赖于基于扩散的模型。在这项工作中,我们通过展示 STARFlow-V 重新审视这个设计空间,这是一种基于流的归一化视频生成器,具有端到端学习、强大的因果预测和本机似然估计等显着优势……
Bootstrapping Sign Language Annotations with Sign Language Models
人工智能驱动的手语解释因缺乏高质量的注释数据而受到限制。包括 ASL STEM Wiki 和 FLEURS-ASL 在内的新数据集包含专业解释者和数百小时的数据,但仅保留部分注释,因此未得到充分利用,部分原因是这种规模的注释成本过高。在这项工作中,我们开发了一个伪注释管道,以签名视频和英语作为输入,并输出一组可能的注释的排名,包括注释、手指拼写单词和符号分类器的时间间隔。我们的管道使用来自...的稀疏预测
International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2026
Apple 将于 5 月 4 日至 8 日在西班牙巴塞罗那举行的年度国际声学、语音和信号处理会议 (ICASSP) 上展示新的研究成果。我们很荣幸再次赞助该会议,该会议汇集了专注于信号处理及其应用的科学和工业研究界。以下是 Apple 参加 ICASSP 2026 的概述。
DSO: Direct Steering Optimization for Bias Mitigation
生成模型通常用于代表用户做出决策,例如视觉语言模型 (VLM) 可以识别房间中的哪个人是医生,以帮助视障人士。然而,VLM 的决策受到输入中人们所感知的人口统计特征的影响,这可能会导致有偏见的结果,例如未能将女性识别为医生。此外,当减少偏差导致性能损失时,用户可能对平衡偏差缓解与整体模型功能有不同的需求,这凸显了对能够实现可控偏差减少的方法的需求……
Adaptive Thinking: Large Language Models Know When to Think in Latent Space
大型语言模型 (LLM) 测试时计算的最新进展引入了在生成答案之前执行中间思想链 (CoT) 推理(思考)的功能。虽然增加思维预算可以在推理时实现平稳的性能改进,但对于实现计算最优推理,LLM 能力、查询复杂性和最佳预算分配之间的关系仍然知之甚少。为了应对这一挑战,我们利用自我一致性,即多个推理路径之间的一致性,作为思考必要性的代理。我们首先确定...
LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning
大型语言模型 (LLM) 通过思想链 (CoT) 生成展示其推理能力。然而,LLM 的自回归解码可能会限制以整体方式重新审视和完善早期代币的能力,这也可能导致对不同解决方案的低效探索。在本文中,我们提出了LaDiR(潜在扩散推理器),这是一种新颖的推理框架,它将连续潜在表示的表达能力与现有法学硕士潜在扩散模型的迭代细化能力相结合。我们首先构建一个结构化的潜在推理空间……
Local Mechanisms of Compositional Generalization in Conditional Diffusion
条件扩散模型似乎能够进行成分泛化,即为调节器的分布外组合生成令人信服的样本,但这种能力背后的机制仍不清楚。为了使这一点具体化,我们研究了长度泛化,即生成具有比训练期间看到的更多对象的图像的能力。在受控的 CLEVR 设置中(Johnson 等人,2017),我们发现在某些情况下可以实现长度泛化,但在其他情况下则不能,这表明模型有时只能学习底层的组成结构。然后我们调查......
StereoFoley: Object-Aware Stereo Audio Generation from Video
我们推出了 StereoFoley,这是一种视频到音频生成框架,可在 48 kHz 下产生语义对齐、时间同步和空间精确的立体声。虽然最近的生成视频到音频模型实现了强大的语义和时间保真度,但由于缺乏专业混合、空间精确的视频到音频数据集,它们在很大程度上仍然局限于单声道或无法提供对象感知的立体成像。首先,我们开发和训练一个从视频生成立体声音频的基本模型,在语义准确性和同步方面实现了最先进的水平。下一步...
Learning Long-Term Motion Embeddings for Efficient Kinematics Generation
理解和预测运动是视觉智能的基本组成部分。尽管现代视频模型表现出对场景动态的强大理解,但通过完整的视频合成探索多种可能的未来仍然效率极低。通过直接对从跟踪器模型获得的大规模轨迹中学习的长期运动嵌入进行操作,我们可以更有效地对场景动力学数量级进行建模。这使得能够有效地生成长而真实的运动,从而实现通过文本提示或空间戳指定的目标。为了实现这一目标,我们...
ParaRNN: Large-Scale Nonlinear RNNs, Trainable in Parallel
递归神经网络 (RNN) 天生适合高效推理,与基于注意力的架构相比,所需的内存和计算量要少得多,但其计算的顺序性历来使得将 RNN 扩展到数十亿个参数是不切实际的。 Apple 研究人员的一项新进展使 RNN 训练的效率显着提高 - 首次实现大规模训练,并扩大了从业者在设计 LLM 时可用的架构选择集,特别是对于资源受限的部署。在 ParaRNN:解锁并行训练......