有效地代表多模式大语言模型(MLLM)的3D场景至关重要但具有挑战性。现有方法通常仅依赖2D图像特征,并使用多样化的令牌化方法。这项工作对3D代币结构进行了严格的研究,并系统地比较了基于视频和基于点的表示,同时保持一致的模型骨干和参数。我们提出了一种新颖的方法,该方法通过结合奏鸣曲预处理的点变压器V3编码器的3D点云特征来丰富视觉令牌。我们的实验表明合并明确的…
Apple Machine Learning Research at ICML 2025
苹果研究人员正在通过基本研究来推进AI和ML,并支持更广泛的研究社区并帮助加速该领域的进步,我们通过会议的出版和参与分享了这项研究的大部分研究。下周,国际机器学习会议(ICML)将在加拿大温哥华举行,苹果自豪地再次参加研究社区的这一重要活动,并成为行业赞助商。在主要会议和相关的研讨会上,苹果研究人员将在AI…
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache
大型语言模型(LLMS)越来越多地被部署在边缘设备上,以进行长篇文章设置,从而越来越需要快速有效的长篇小说推断。在这些情况下,就GPU内存和延迟而言,键值(KV)缓存是主要的瓶颈,因为必须为每个解码步骤加载完整的KV缓存。虽然投机解码是一种广泛接受的技术来加速自回归解码,但由于KV缓存优化策略效率低下,现有方法通常难以实现大幅加速,并导致较低的接受率。到…
Shielded Diffusion: Generating Novel and Diverse Images using Sparse Repellency
扩散模型正在生成越来越现实的图像。但是,当用相同提示反复反复发电图像时,从业人员通常会获得相同的,极为怀疑的模式的轻微变化。结果,大多数模型无法重新折断数据中固有的多样性,这阻碍了它们与CreativEtasks或为世界模型提供动力的能力。这项工作提出了一种非常有效的和一般的方法,可以将生成的图像从一组参考图像组中驱逐出去。这是通过在散布中引入数据驱动的驱除术语来实现的。
Target Concrete Score Matching: A Holistic Framework for Discrete Diffusion
离散扩散是建模和生成离散数据的有前途的框架。在这项工作中,我们提出了目标混凝土评分匹配(TCSM),这是一个新颖而多功能的目标,用于训练和微调离散扩散模型。 TCSM提供了一个具有广泛适用性的一般框架。它直接从数据样本中支持训练前离散扩散模型,许多现有的离散扩散方法自然出现为我们更一般的TCSM框架的特殊情况。此外,相同的TCSM目标扩展到离散扩散模型的训练后,包括…
CommVQ: Commutative Vector Quantization for KV Cache Compression
大语言模型(LLMS)越来越多地用于需要长上下文长度的应用中,但是随着连接长度的增长,键值(KV)缓存通常会成为GPU上的内存瓶颈。为了解决这个问题,我们提出了交换矢量量化(COMMVQ),以显着减少长篇小说LLM推理的内存使用情况。首先,我们通过引入轻量级编码器和代码本来压缩KV缓存来利用加法量化,然后可以用简单的矩阵乘法来解码。其次,要解决解码过程中的高计算成本,我们设计了…
A Variational Framework for Improving Naturalness in Generative Spoken Language Models
大型语言模型在文本处理中的成功激发了他们对语音建模的适应。但是,由于语音是连续且复杂的,因此通常将其离散为自回归建模。源自自我监督模型(称为语义令牌)的语音令牌通常集中在语言方面,但忽略了韵律信息。结果,对这些代币进行训练的模型可以产生自然性降低的语音。现有方法试图通过在语义令牌中添加音调功能来解决此问题。但是,单独的音高不能完全代表范围…
Beyond Sensor Data: Foundation Models of Behavioral Data from Wearables Improve Health Predictions
可穿戴设备记录可以改善健康预测的生理和行为信号。尽管基础模型越来越多地用于此类预测,但由于行为数据与生理相关的时间表和数量的一致性,尽管行为数据往往更具信息性,但它们主要应用于低级传感器数据。我们使用来自162K个人的2.5B小时可穿戴数据,系统地优化体系结构和该独特数据集的令牌化策略,开发了此类行为信号的基础模型。对57个健康相关的评估…
Faster Rates for Private Adversarial Bandits
我们为对抗性土匪和土匪的问题设计了新的私人算法,并提供了专家建议。对于对抗性匪徒,我们简单有效地转换了任何非私有的匪徒算法到私人强盗算法。实例化我们使用现有的非私有强盗算法的转换给出了O(Ktε)O \ left的上限(\ frac {\ frac {\ sqrt {kt}}} {\ sqrt {\ sqrt {\ varepsilon}}}} O(ktlog(kt)ε)o \ left(\ frac {\ sqrt {kt \ log(kt)}}} {\ varepsilon} \ right)o(εktlog(kt))特别是我们的算法…
Addressing Misspecification in Simulation-based Inference through Data-driven Calibration
是由深层生成建模的稳定进步驱动的,基于模拟的推理(SBI)已成为推断随机模拟器参数的主力。但是,最近的工作表明,模型错误指定会损害SBI的可靠性,从而阻止其在仅可用的拼写模拟器可用的重要应用中采用。这项工作引入了强大的后估计〜(绳索),该框架通过较小的现实世界校准集的基础真实参数测量值克服了模型错误指定。我们正式规定了错误的标准……
Learning to Route LLMs with Confidence Tokens
大型语言模型(LLM)在几个任务上表现出了令人印象深刻的性能,并且越来越多地部署在现实世界中的应用程序中。但是,尤其是在高风险设置中,了解LLM的输出何时可能不可靠变得至关重要。根据答案是否值得信赖,系统可以选择将问题路由将问题路由到另一个专家,或者以其他方式依靠安全的默认行为。在这项工作中,我们研究了LLM可以可靠地表明其答案的信心的程度,以及这种信心概念如何转化为下游的准确性……
Tracking the Best Expert Privately
我们在动态遗憾的情况下以专家建议为预测的问题设计了不同的私人算法,也被称为跟踪最佳专家。我们的工作介绍了三种自然类型的对手,这些对手,随机分布,遗忘和适应性的变化,以及在所有三个情况下都以次线性后悔的设计算法。特别是,在变化的随机对手下,分布可能会改变SSS时间,我们提供了ε\varepsilonε-划分的私人算法,其预期的动态遗憾最多是O(stlog(nt) +slog(nt) +slog(nt)ε\ weft(\ sqrt(\ sqrt)
The Geometries of Truth Are Orthogonal Across Tasks
本文在ICML 2025.LARGE语言模型(LLMS)的有关可靠和负责任的基础模型的研讨会上介绍了各种任务的令人印象深刻的概括能力,但是他们对实际相关性的主张仍然存在于其可靠性的担忧。最近的工作提出了研究LLM在推理时间上产生的激活,以评估其对问题的答案是否正确。一些作品声称可以从示例中学到“真理的几何”,从某种意义上说,可以区分产生正确答案的激活……
SceneScout: Towards AI Agent-driven Access to Street View Imagery for Blind Users
盲目或视力低下的人(BLV)可能会因为对物理景观的不确定性而在陌生的环境中独立旅行。虽然大多数工具专注于原位导航,但探索前旅行援助的人通常仅提供地标和转弯指令,缺乏详细的视觉上下文。街景图像包含丰富的视觉信息,并有可能揭示大量环境细节,但对于BLV人来说仍然无法访问。在这项工作中,我们介绍了Spacecout,这是一种多模式的大语言模型(MLLM)驱动的AI代理,该代理…
Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs
最近快速采用大语模型(LLMS)强调了基准对其公平性进行基准测试的关键需求。传统的公平度量指标集中在基于离散准确性的评估(即预测正确性)上,无法捕获模型不确定性的隐式影响(例如,尽管精度相似,但还是对一个组的更高模型置信度更高,而另一组的置信度更高)。为了解决这一限制,我们提出了一个不确定性意识的公平度量,ucerf,可以对模型公平进行精细的评估,与…
Soup-of-Experts: Pretraining Specialist Models via Parameters Averaging
大规模模型经常在不同的数据源的混合物上进行培训。不同的数据混合物产生了非常不同的下游性能。我们提出了一种新型架构,可以为每个数据混合物实例化一个模型,而不必重新培训模型,而不必重新培训该模型,而不必构成一系列专家的构造,这些构造是一种可实用的组合型组合。直方图。要训练此体系结构,我们采样了随机直方图,实例化相应的模型,然后通过一批数据进行反向处理…
Understanding Input Selectivity in Mamba
State-Space Models (SSMs), and particularly Mamba, have recently emerged as a promising alternative to Transformers.Mamba introduces input selectivity to its SSM layer (S6) andincorporates convolution and gating into its block definition.While these modifications do improve Mamba's performance over
The Super Weight in Large Language Models
最近的作品显示出令人惊讶的结果:一小部分大语言模型(LLM)参数异常值对模型的质量不成比例。 LLM包含数十亿个参数,因此这些小部分(例如0.01%)转化为数十万个参数。在这项工作中,我们提出了一个更令人惊讶的发现:修剪较少的单个参数可以破坏LLM生成文本的能力 - 使困惑度增加了3个数量级,并将零拍的精度降低到猜测。我们提出了一种无数据识别此类参数的方法…