Apple机器学习研究领域信息情报检索---XiaoMi-AI

2025年7月13日 05:55

启用私人联合学习以进行语音识别：基准，自适应优化器和梯度剪裁

Enabling Differentially Private Federated Learning for Speech Recognition: Benchmarks, Adaptive Optimizers, and Gradient Clipping

虽然已经对联邦学习（FL）和差异隐私（DP）进行了广泛的研究，但由于训练大型变压器模型的挑战，它们在自动语音识别（ASR）中的应用仍未得到探索。具体而言，大型模型进一步加剧了FL中的问题，因为它们特别容易受到各个层的梯度异质性的影响，这与在浅层模型中观察到的相对均匀的梯度行为不同。结果，即使在没有DP机制的情况下，先前的工作也很难融合标准优化技术。据我们所知……

2025年7月13日 05:55

iLuvui：从机器对话中对UIS的指令调整语言 - 视觉模型

ILuvUI: Instruction-Tuned Language-Vision Modeling of UIs from Machine Conversations

多模式视觉模型（VLMS）从对图像和语言的融合理解中启用了强大的应用程序，由于缺乏UI培训数据，Butmany在UI任务上的表现较差。在本文中，我们通过将现有基于像素的方法与大语言模型（LLM）相结合，以将VLM的配对文本构想数据与UI域生成对UI域。与Plior Art不同，我们的方法不需要人提供的注释，并且可以应用于UI屏幕截图的任何数据集。我们生成了335K的对话示例的adataset，并与涵盖问答的UI配对，UI…

2025年7月11日 00:00

Point-3D LLM：使用大语言模型研究令牌结构对3D场景理解的影响

Point-3D LLM: Studying the Impact of Token Structure for 3D Scene Understanding With Large Language Models

有效地代表多模式大语言模型（MLLM）的3D场景至关重要但具有挑战性。现有方法通常仅依赖2D图像特征，并使用多样化的令牌化方法。这项工作对3D代币结构进行了严格的研究，并系统地比较了基于视频和基于点的表示，同时保持一致的模型骨干和参数。我们提出了一种新颖的方法，该方法通过结合奏鸣曲预处理的点变压器V3编码器的3D点云特征来丰富视觉令牌。我们的实验表明合并明确的…

2025年7月11日 00:00

ICML 2025

Apple Machine Learning Research at ICML 2025

苹果研究人员正在通过基本研究来推进AI和ML，并支持更广泛的研究社区并帮助加速该领域的进步，我们通过会议的出版和参与分享了这项研究的大部分研究。下周，国际机器学习会议（ICML）将在加拿大温哥华举行，苹果自豪地再次参加研究社区的这一重要活动，并成为行业赞助商。在主要会议和相关的研讨会上，苹果研究人员将在AI…

2025年7月11日 00:00

自我反射不确定性：LLM知道他们的内部答案分布吗？

Self-reflective Uncertainties: Do LLMs Know Their Internal Answer Distribution?

本文在ICML 2025的可靠和负责任的基础模型（RRFMS）研讨会上接受了本文。不确定量化在将大语言模型（LLMS）带到最终用户时起着关键作用。它的主要目标是LLM应该指出何时不确定其给出答案。尽管过去已经以数值确定性得分来揭示，但我们建议使用LLM的丰富输出空间，LLM的所有可能字符串的空间，以提供描述不确定性的字符串。特别是，我们寻求一个描述LLM答案分布的字符串……

2025年7月11日 00:00

Quantspec：用层次量化的量子量化kV缓存

QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache

大型语言模型（LLMS）越来越多地被部署在边缘设备上，以进行长篇文章设置，从而越来越需要快速有效的长篇小说推断。在这些情况下，就GPU内存和延迟而言，键值（KV）缓存是主要的瓶颈，因为必须为每个解码步骤加载完整的KV缓存。虽然投机解码是一种广泛接受的技术来加速自回归解码，但由于KV缓存优化策略效率低下，现有方法通常难以实现大幅加速，并导致较低的接受率。到…

2025年7月10日 06:25

commvq：KV缓存压缩的交换矢量量化

CommVQ: Commutative Vector Quantization for KV Cache Compression

大语言模型（LLMS）越来越多地用于需要长上下文长度的应用中，但是随着连接长度的增长，键值（KV）缓存通常会成为GPU上的内存瓶颈。为了解决这个问题，我们提出了交换矢量量化（COMMVQ），以显着减少长篇小说LLM推理的内存使用情况。首先，我们通过引入轻量级编码器和代码本来压缩KV缓存来利用加法量化，然后可以用简单的矩阵乘法来解码。其次，要解决解码过程中的高计算成本，我们设计了…

2025年7月10日 06:25

目标混凝土分数匹配：离散扩散的整体框架

Target Concrete Score Matching: A Holistic Framework for Discrete Diffusion

离散扩散是建模和生成离散数据的有前途的框架。在这项工作中，我们提出了目标混凝土评分匹配（TCSM），这是一个新颖而多功能的目标，用于训练和微调离散扩散模型。 TCSM提供了一个具有广泛适用性的一般框架。它直接从数据样本中支持训练前离散扩散模型，许多现有的离散扩散方法自然出现为我们更一般的TCSM框架的特殊情况。此外，相同的TCSM目标扩展到离散扩散模型的训练后，包括…

2025年7月10日 06:25

一个改善生成语言模型自然性的变异框架

A Variational Framework for Improving Naturalness in Generative Spoken Language Models

大型语言模型在文本处理中的成功激发了他们对语音建模的适应。但是，由于语音是连续且复杂的，因此通常将其离散为自回归建模。源自自我监督模型（称为语义令牌）的语音令牌通常集中在语言方面，但忽略了韵律信息。结果，对这些代币进行训练的模型可以产生自然性降低的语音。现有方法试图通过在语义令牌中添加音调功能来解决此问题。但是，单独的音高不能完全代表范围…

2025年7月10日 06:25

屏蔽扩散：使用稀疏驱除态生成新颖和多样的图像

Shielded Diffusion: Generating Novel and Diverse Images using Sparse Repellency

扩散模型正在生成越来越现实的图像。但是，当用相同提示反复反复发电图像时，从业人员通常会获得相同的，极为怀疑的模式的轻微变化。结果，大多数模型无法重新折断数据中固有的多样性，这阻碍了它们与CreativEtasks或为世界模型提供动力的能力。这项工作提出了一种非常有效的和一般的方法，可以将生成的图像从一组参考图像组中驱逐出去。这是通过在散布中引入数据驱动的驱除术语来实现的。

2025年7月9日 11:24

超越传感器数据：可穿戴设备的行为数据的基础模型改善了健康预测

Beyond Sensor Data: Foundation Models of Behavioral Data from Wearables Improve Health Predictions

可穿戴设备记录可以改善健康预测的生理和行为信号。尽管基础模型越来越多地用于此类预测，但由于行为数据与生理相关的时间表和数量的一致性，尽管行为数据往往更具信息性，但它们主要应用于低级传感器数据。我们使用来自162K个人的2.5B小时可穿戴数据，系统地优化体系结构和该独特数据集的令牌化策略，开发了此类行为信号的基础模型。对57个健康相关的评估…

2025年7月9日 11:24

通过数据驱动的校准解决基于模拟的推断中的错误指定

Addressing Misspecification in Simulation-based Inference through Data-driven Calibration

是由深层生成建模的稳定进步驱动的，基于模拟的推理（SBI）已成为推断随机模拟器参数的主力。但是，最近的工作表明，模型错误指定会损害SBI的可靠性，从而阻止其在仅可用的拼写模拟器可用的重要应用中采用。这项工作引入了强大的后估计〜（绳索），该框架通过较小的现实世界校准集的基础真实参数测量值克服了模型错误指定。我们正式规定了错误的标准……

2025年7月9日 11:24

私人对抗土匪的速度更快

Faster Rates for Private Adversarial Bandits

我们为对抗性土匪和土匪的问题设计了新的私人算法，并提供了专家建议。对于对抗性匪徒，我们简单有效地转换了任何非私有的匪徒算法到私人强盗算法。实例化我们使用现有的非私有强盗算法的转换给出了O（Ktε）O \ left的上限（\ frac {\ frac {\ sqrt {kt}}} {\ sqrt {\ sqrt {\ varepsilon}}}} O（ktlog⁡（kt）ε）o \ left（\ frac {\ sqrt {kt \ log（kt）}}} {\ varepsilon} \ right）o（εktlog（kt））特别是我们的算法…

2025年7月7日 00:00

跟踪最好的专家私人

Tracking the Best Expert Privately

我们在动态遗憾的情况下以专家建议为预测的问题设计了不同的私人算法，也被称为跟踪最佳专家。我们的工作介绍了三种自然类型的对手，这些对手，随机分布，遗忘和适应性的变化，以及在所有三个情况下都以次线性后悔的设计算法。特别是，在变化的随机对手下，分布可能会改变SSS时间，我们提供了ε\varepsilonε-划分的私人算法，其预期的动态遗憾最多是O（stlog⁡（nt） +slog⁡（nt） +slog⁡（nt）ε\ weft（\ sqrt（\ sqrt）

2025年7月7日 00:00

学习充满信心的标记来路由LLM

Learning to Route LLMs with Confidence Tokens

大型语言模型（LLM）在几个任务上表现出了令人印象深刻的性能，并且越来越多地部署在现实世界中的应用程序中。但是，尤其是在高风险设置中，了解LLM的输出何时可能不可靠变得至关重要。根据答案是否值得信赖，系统可以选择将问题路由将问题路由到另一个专家，或者以其他方式依靠安全的默认行为。在这项工作中，我们研究了LLM可以可靠地表明其答案的信心的程度，以及这种信心概念如何转化为下游的准确性……

2025年7月7日 00:00

真理的几何形状在任务中是正交的

The Geometries of Truth Are Orthogonal Across Tasks

本文在ICML 2025.LARGE语言模型（LLMS）的有关可靠和负责任的基础模型的研讨会上介绍了各种任务的令人印象深刻的概括能力，但是他们对实际相关性的主张仍然存在于其可靠性的担忧。最近的工作提出了研究LLM在推理时间上产生的激活，以评估其对问题的答案是否正确。一些作品声称可以从示例中学到“真理的几何”，从某种意义上说，可以区分产生正确答案的激活……

2025年7月6日 20:05

SceneScout：朝着AI代理驱动访问盲人用户的街道视图图像

SceneScout: Towards AI Agent-driven Access to Street View Imagery for Blind Users

盲目或视力低下的人（BLV）可能会因为对物理景观的不确定性而在陌生的环境中独立旅行。虽然大多数工具专注于原位导航，但探索前旅行援助的人通常仅提供地标和转弯指令，缺乏详细的视觉上下文。街景图像包含丰富的视觉信息，并有可能揭示大量环境细节，但对于BLV人来说仍然无法访问。在这项工作中，我们介绍了Spacecout，这是一种多模式的大语言模型（MLLM）驱动的AI代理，该代理…

2025年7月4日 00:00

您的模型还确定吗？ LLMS的不确定性意识公平评估

Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs

最近快速采用大语模型（LLMS）强调了基准对其公平性进行基准测试的关键需求。传统的公平度量指标集中在基于离散准确性的评估（即预测正确性）上，无法捕获模型不确定性的隐式影响（例如，尽管精度相似，但还是对一个组的更高模型置信度更高，而另一组的置信度更高）。为了解决这一限制，我们提出了一个不确定性意识的公平度量，ucerf，可以对模型公平进行精细的评估，与…