Apple机器学习研究领域信息情报检索---XiaoMi-AI

2026年2月13日 00:00

联合变分不等式的更快速度

Faster Rates For Federated Variational Inequalities

在本文中，我们研究了用于解决随机变分不等式（VI）的联合优化，这是近年来引起越来越多关注的问题。尽管取得了实质性进展，但现有的收敛速度与联合凸优化已知的最先进边界之间仍然存在显着差距。在这项工作中，我们通过建立一系列改进的收敛率来解决这一限制。首先，我们证明，对于一般的平滑和单调变分不等式，经典的 Local Extra SGD 算法在精细分析下可以提供更严格的保证……

2026年2月12日 00:00

映射计算机使用代理的用户体验设计空间

Mapping the Design Space of User Experience for Computer Use Agents

基于大型语言模型 (LLM) 的计算机使用代理通过与可用的 UI 元素交互来执行用户命令，但对于用户希望如何与这些代理交互或哪些设计因素对其用户体验 (UX) 至关重要，人们知之甚少。我们进行了一项两阶段的研究来绘制计算机使用代理的用户体验设计空间。在第一阶段，我们审查了现有系统，以制定用户体验考虑因素的分类法，然后通过采访八位用户体验和人工智能从业者来完善它。由此产生的分类法包括用户提示、可解释性、用户控制和用户……等类别。

2026年2月12日 00:00

迹线长度是推理模型中的简单不确定性信号

Trace Length is a Simple Uncertainty Signal in Reasoning Models

法学硕士的不确定性量化是解决幻觉和其他限制其可靠部署的问题的关键研究方向。在这项工作中，我们证明推理轨迹长度是大型推理模型中简单且有用的置信度估计器。通过跨多个模型、数据集和提示的综合实验，我们表明迹线长度的表现与其他零样本置信度估计器（例如言语置信度）具有可比较但互补的方式。我们的工作表明，训练后推理从根本上改变了踪迹之间的关系……

2026年2月10日 00:00

并行轨道变压器：通过减少同步实现快速 GPU 推理

Parallel Track Transformers: Enabling Fast GPU Inference with Reduced Synchronization

基于 Transformer 的大型语言模型 (LLM) 的高效大规模推理仍然是一个基本的系统挑战，经常需要多 GPU 并行性来满足严格的延迟和吞吐量目标。传统的张量并行性会分解跨设备的矩阵运算，但会引入大量的 GPU 间同步，从而导致通信瓶颈和可扩展性下降。我们提出了并行轨道（PT）变压器，这是一种新颖的架构范例，可以重组计算以最小化跨设备依赖性。 PT 实现了高达 16 倍的减少……

2026年2月6日 00:00

VSSFlow：通过联合学习统一视频条件声音和语音生成

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

视频条件声音和语音生成，包括视频转声音 (V2S) 和视觉文本转语音 (VisualTTS) 任务，通常被视为单独的任务，将它们统一到单一框架内的探索有限。最近统一 V2S 和 VisualTTS 的尝试在处理不同的条件类型（例如异构视频和转录条件）方面面临挑战，并且需要复杂的训练阶段。统一这两项任务仍然是一个悬而未决的问题。为了弥补这一差距，我们推出了 VSSFlow，它将 V2S 和 VisualTTS 任务无缝集成到一个统一的……

2026年2月6日 00:00

零件如何组合成整体：学习图像的相对构成

How PARTs Assemble into Wholes: Learning the Relative Composition of Images

对象及其部分的组成，以及对象与对象的位置关系，为表示学习提供了丰富的信息源。因此，空间感知借口任务在自监督学习中得到了积极探索。现有的工作通常从网格结构开始，其中借口任务的目标涉及预测固定网格内补丁的绝对位置索引。然而，基于网格的方法无法捕捉现实世界对象组合的流动性和连续性。我们介绍 PART，一种自我监督学习方法......

2026年1月30日 00:00

使用高斯过程的自监督学习

Self-Supervised Learning with Gaussian Processes

自监督学习 (SSL) 是一种机器学习范例，其中模型学习理解数据的底层结构，而无需来自标记样本的显式监督。从 SSL 获取的表示已被证明可用于许多下游任务，包括聚类和线性分类等。为了确保表示空间的平滑性，大多数 SSL 方法依赖于生成与给定实例相似的观察对的能力。然而，对于许多类型的数据来说，生成这些对可能具有挑战性。而且，这些方法缺乏考虑……

2026年1月27日 00:00

SelfReflect：法学硕士可以传达他们的内部答案分布吗？

SelfReflect: Can LLMs Communicate Their Internal Answer Distribution?

传达大型语言模型 (LLM) 不确定性的常见方法是在其响应中添加百分比数字或保护语。但这就是我们能做的一切吗？对用户完全透明的法学硕士需要能够反映其内部信念分布并输出其认为可能的所有选项及其可能性的摘要，而不是生成单个答案然后对其进行对冲。为了测试法学硕士是否具备这种能力，我们开发了 SelfReflect 指标，即给定摘要与答案分布之间的信息论距离。在...

2026年1月27日 00:00

语音推测解码的原则性粗粒度接受

Principled Coarse-Grained Acceptance for Speculative Decoding in Speech

推测性解码通过让快速草稿模型提出由更大的目标模型验证的标记来加速自回归语音生成。然而，对于生成声学标记的语音法学硕士来说，精确的标记匹配过于严格：许多离散标记在声学或语义上是可互换的，从而降低了接受率并限制了加速。我们引入了原则性粗粒度（PCG），它在从目标模型的嵌入空间派生的声学相似性组（ASG）级别验证建议。通过将每个标记的概率质量分布在...

2026年1月27日 00:00

通过可扩展的训练中期强化学习将推理作为动作抽象来学习

Learning to Reason as Action Abstractions with Scalable Mid-Training RL

大型语言模型在强化学习 (RL) 方面表现出色，但完全释放这种潜力需要中期训练阶段。有效的中期训练阶段应该确定一组紧凑的有用动作，并通过在线强化学习在其中进行快速选择。我们通过提出关于训练中期如何塑造训练后的第一个理论结果来形式化这种直觉：它描述了一个动作子空间，该子空间可以最小化剪枝的值近似误差和后续规划期间的 RL 误差。我们的分析揭示了训练中期效果的两个关键决定因素：...

2026年1月21日 00:00

DiffuCoder：理解和改进代码生成的掩模扩散模型

DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation

扩散大语言模型 (dLLM) 是自回归 (AR) 模型的引人注目的替代品，因为它们的去噪模型在整个序列上运行。 dLLM 的全局规划和迭代细化功能对于代码生成特别有用。然而，目前 dLLM 在编码方面的训练和推理机制仍有待探索。为了揭开 dLLM 解码行为的神秘面纱并释放其编码潜力，我们系统地研究了它们的去噪过程和强化学习 (RL) 方法。我们在 130B 上训练 7B dLLM，\textbf{DiffuCoder}...

2026年1月16日 00:00

数据质量错觉：重新思考 LLM 预训练中基于分类器的质量过滤

The Data-Quality Illusion: Rethinking Classifier-Based Quality Filtering for LLM Pretraining

大型模型是在包含混合质量文档的大量网络爬行数据集上进行预训练的，因此数据过滤至关重要。一种流行的方法是基于分类器的质量过滤 (CQF)，它训练二元分类器来区分预训练数据和小型高质量数据集。它为每个预训练文档分配一个定义为分类器分数的质量分数，并仅保留得分最高的分数。我们对 CQF 进行了深入分析。我们表明，虽然 CQF 提高了下游任务性能，但它不一定能增强高质量的语言建模......

2026年1月16日 00:00

ParaRNN：解锁大型语言模型的非线性 RNN 并行训练

ParaRNN: Unlocking Parallel Training of Nonlinear RNNs for Large Language Models

循环神经网络 (RNN) 为序列建模奠定了基础，但其内在的序列性质限制了并行计算，为扩展造成了根本障碍。这导致了 Transformer 等可并行架构以及最近的状态空间模型 (SSM) 的主导地位。虽然 SSM 通过结构化线性递归实现高效并行化，但这种线性约束限制了它们的表达能力，并妨碍对复杂的非线性序列依赖关系进行建模。为了解决这个问题，我们提出了 ParaRNN，一个打破......

2026年1月12日 00:00

使用最优传输的多元共形预测

Multivariate Conformal Prediction using Optimal Transport

保形预测 (CP) 通过构建可信输出集来量化机器学习模型的不确定性。这些集合是通过利用所谓的一致性分数（使用输入兴趣点计算的数量）、预测模型和过去的观察结果来构建的。然后通过评估所有可能输出的一致性分数并根据分数的排名来选择它们来获得CP集。由于这个排名步骤，大多数 CP 方法依赖于单变量的评分函数。将这些分数扩展到多元空间的挑战在于……

2026年1月12日 00:00

MoE 比您想象的更强大：使用 RoE 进行超并行推理扩展

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

大型语言模型 (LLM) 的生成质量通常可以通过利用推理时间序列级缩放方法（例如思想链）来提高。我们引入了超并行扩展，这是一种补充框架，可以提高令牌级别的预测质量。超并行扩展计算并聚合模型中单个令牌的多个输出建议。我们在专家混合 (MoE) 模型中实现这一概念，我们将其称为专家名册 (RoE)。 RoE 是一种免训练推理算法，可将单个 MoE 转变为 MoE 的动态集合。投资回报率...

2026年1月12日 00:00

DeepMMSearch-R1：在多模式网络搜索中为多模式法学硕士提供支持

DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search

现实应用中的多模态大型语言模型 (MLLM) 需要访问外部知识源，并且必须保持对动态且不断变化的现实世界信息的响应，以便解决信息查找和知识密集型用户查询。现有的方法，例如检索增强生成 (RAG) 方法、搜索代理和配备搜索的 MLLM，通常会遇到僵化的管道、过多的搜索调用和构造不良的搜索查询，从而导致效率低下和结果不佳。为了解决这些限制，我们提出......

2026年1月12日 00:00

搜索增强大型语言模型中的过度搜索

Over-Searching in Search-Augmented Large Language Models

搜索增强型大语言模型（LLM）通过集成外部检索，擅长知识密集型任务。然而，它们经常过度搜索——不必要地调用搜索工具，即使它不能提高响应质量，这会导致计算效率低下，并因合并不相关的上下文而产生幻觉。在这项工作中，我们对跨多个维度的过度搜索进行了系统评估，包括查询类型、模型类别、检索条件和多轮对话。我们的发现表明：(i) 搜索通常可以提高……的答案准确性

2026年1月11日 00:00

MANZANO：具有混合视觉分词器的简单且可扩展的统一多模态模型

MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

能够理解和生成视觉内容的统一多模式大语言模型 (LLM) 拥有巨大的潜力。然而，现有的开源模型通常会受到这些功能之间性能权衡的影响。我们提出了 Manzano，一个简单且可扩展的统一框架，通过将混合图像标记器与精心策划的训练方案相结合，大大减少了这种紧张。单个共享视觉编码器为两个轻量级适配器提供数据，这些适配器在公共…内生成用于图像到文本理解的连续嵌入和用于文本到图像生成的离散标记。