Apple机器学习研究领域信息情报检索---XiaoMi-AI

2025年7月11日 00:00

Point-3D LLM：使用大语言模型研究令牌结构对3D场景理解的影响

Point-3D LLM: Studying the Impact of Token Structure for 3D Scene Understanding With Large Language Models

有效地代表多模式大语言模型（MLLM）的3D场景至关重要但具有挑战性。现有方法通常仅依赖2D图像特征，并使用多样化的令牌化方法。这项工作对3D代币结构进行了严格的研究，并系统地比较了基于视频和基于点的表示，同时保持一致的模型骨干和参数。我们提出了一种新颖的方法，该方法通过结合奏鸣曲预处理的点变压器V3编码器的3D点云特征来丰富视觉令牌。我们的实验表明合并明确的…

2025年7月10日 06:25

屏蔽扩散：使用稀疏驱除态生成新颖和多样的图像

Shielded Diffusion: Generating Novel and Diverse Images using Sparse Repellency

扩散模型正在生成越来越现实的图像。但是，当用相同提示反复反复发电图像时，从业人员通常会获得相同的，极为怀疑的模式的轻微变化。结果，大多数模型无法重新折断数据中固有的多样性，这阻碍了它们与CreativEtasks或为世界模型提供动力的能力。这项工作提出了一种非常有效的和一般的方法，可以将生成的图像从一组参考图像组中驱逐出去。这是通过在散布中引入数据驱动的驱除术语来实现的。

2025年7月10日 06:25

目标混凝土分数匹配：离散扩散的整体框架

Target Concrete Score Matching: A Holistic Framework for Discrete Diffusion

离散扩散是建模和生成离散数据的有前途的框架。在这项工作中，我们提出了目标混凝土评分匹配（TCSM），这是一个新颖而多功能的目标，用于训练和微调离散扩散模型。 TCSM提供了一个具有广泛适用性的一般框架。它直接从数据样本中支持训练前离散扩散模型，许多现有的离散扩散方法自然出现为我们更一般的TCSM框架的特殊情况。此外，相同的TCSM目标扩展到离散扩散模型的训练后，包括…

2025年7月10日 06:25

一个改善生成语言模型自然性的变异框架

A Variational Framework for Improving Naturalness in Generative Spoken Language Models

大型语言模型在文本处理中的成功激发了他们对语音建模的适应。但是，由于语音是连续且复杂的，因此通常将其离散为自回归建模。源自自我监督模型（称为语义令牌）的语音令牌通常集中在语言方面，但忽略了韵律信息。结果，对这些代币进行训练的模型可以产生自然性降低的语音。现有方法试图通过在语义令牌中添加音调功能来解决此问题。但是，单独的音高不能完全代表范围…

2025年7月10日 06:25

commvq：KV缓存压缩的交换矢量量化

CommVQ: Commutative Vector Quantization for KV Cache Compression

大语言模型（LLMS）越来越多地用于需要长上下文长度的应用中，但是随着连接长度的增长，键值（KV）缓存通常会成为GPU上的内存瓶颈。为了解决这个问题，我们提出了交换矢量量化（COMMVQ），以显着减少长篇小说LLM推理的内存使用情况。首先，我们通过引入轻量级编码器和代码本来压缩KV缓存来利用加法量化，然后可以用简单的矩阵乘法来解码。其次，要解决解码过程中的高计算成本，我们设计了…

2025年7月9日 11:24

超越传感器数据：可穿戴设备的行为数据的基础模型改善了健康预测

Beyond Sensor Data: Foundation Models of Behavioral Data from Wearables Improve Health Predictions

可穿戴设备记录可以改善健康预测的生理和行为信号。尽管基础模型越来越多地用于此类预测，但由于行为数据与生理相关的时间表和数量的一致性，尽管行为数据往往更具信息性，但它们主要应用于低级传感器数据。我们使用来自162K个人的2.5B小时可穿戴数据，系统地优化体系结构和该独特数据集的令牌化策略，开发了此类行为信号的基础模型。对57个健康相关的评估…

2025年7月9日 11:24

私人对抗土匪的速度更快

Faster Rates for Private Adversarial Bandits

我们为对抗性土匪和土匪的问题设计了新的私人算法，并提供了专家建议。对于对抗性匪徒，我们简单有效地转换了任何非私有的匪徒算法到私人强盗算法。实例化我们使用现有的非私有强盗算法的转换给出了O（Ktε）O \ left的上限（\ frac {\ frac {\ sqrt {kt}}} {\ sqrt {\ sqrt {\ varepsilon}}}} O（ktlog⁡（kt）ε）o \ left（\ frac {\ sqrt {kt \ log（kt）}}} {\ varepsilon} \ right）o（εktlog（kt））特别是我们的算法…

2025年7月9日 11:24

通过数据驱动的校准解决基于模拟的推断中的错误指定

Addressing Misspecification in Simulation-based Inference through Data-driven Calibration

是由深层生成建模的稳定进步驱动的，基于模拟的推理（SBI）已成为推断随机模拟器参数的主力。但是，最近的工作表明，模型错误指定会损害SBI的可靠性，从而阻止其在仅可用的拼写模拟器可用的重要应用中采用。这项工作引入了强大的后估计〜（绳索），该框架通过较小的现实世界校准集的基础真实参数测量值克服了模型错误指定。我们正式规定了错误的标准……

2025年7月7日 00:00

跟踪最好的专家私人

Tracking the Best Expert Privately

我们在动态遗憾的情况下以专家建议为预测的问题设计了不同的私人算法，也被称为跟踪最佳专家。我们的工作介绍了三种自然类型的对手，这些对手，随机分布，遗忘和适应性的变化，以及在所有三个情况下都以次线性后悔的设计算法。特别是，在变化的随机对手下，分布可能会改变SSS时间，我们提供了ε\varepsilonε-划分的私人算法，其预期的动态遗憾最多是O（stlog⁡（nt） +slog⁡（nt） +slog⁡（nt）ε\ weft（\ sqrt（\ sqrt）

2025年7月7日 00:00

学习充满信心的标记来路由LLM

Learning to Route LLMs with Confidence Tokens

大型语言模型（LLM）在几个任务上表现出了令人印象深刻的性能，并且越来越多地部署在现实世界中的应用程序中。但是，尤其是在高风险设置中，了解LLM的输出何时可能不可靠变得至关重要。根据答案是否值得信赖，系统可以选择将问题路由将问题路由到另一个专家，或者以其他方式依靠安全的默认行为。在这项工作中，我们研究了LLM可以可靠地表明其答案的信心的程度，以及这种信心概念如何转化为下游的准确性……

2025年7月7日 00:00

真理的几何形状在任务中是正交的

The Geometries of Truth Are Orthogonal Across Tasks

本文在ICML 2025.LARGE语言模型（LLMS）的有关可靠和负责任的基础模型的研讨会上介绍了各种任务的令人印象深刻的概括能力，但是他们对实际相关性的主张仍然存在于其可靠性的担忧。最近的工作提出了研究LLM在推理时间上产生的激活，以评估其对问题的答案是否正确。一些作品声称可以从示例中学到“真理的几何”，从某种意义上说，可以区分产生正确答案的激活……

2025年7月6日 20:05

SceneScout：朝着AI代理驱动访问盲人用户的街道视图图像

SceneScout: Towards AI Agent-driven Access to Street View Imagery for Blind Users

盲目或视力低下的人（BLV）可能会因为对物理景观的不确定性而在陌生的环境中独立旅行。虽然大多数工具专注于原位导航，但探索前旅行援助的人通常仅提供地标和转弯指令，缺乏详细的视觉上下文。街景图像包含丰富的视觉信息，并有可能揭示大量环境细节，但对于BLV人来说仍然无法访问。在这项工作中，我们介绍了Spacecout，这是一种多模式的大语言模型（MLLM）驱动的AI代理，该代理…

2025年7月4日 00:00

专家汤：通过参数进行预处理的专家模型

Soup-of-Experts: Pretraining Specialist Models via Parameters Averaging

大规模模型经常在不同的数据源的混合物上进行培训。不同的数据混合物产生了非常不同的下游性能。我们提出了一种新型架构，可以为每个数据混合物实例化一个模型，而不必重新培训模型，而不必重新培训该模型，而不必构成一系列专家的构造，这些构造是一种可实用的组合型组合。直方图。要训练此体系结构，我们采样了随机直方图，实例化相应的模型，然后通过一批数据进行反向处理…

2025年7月4日 00:00

您的模型还确定吗？ LLMS的不确定性意识公平评估

Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs

最近快速采用大语模型（LLMS）强调了基准对其公平性进行基准测试的关键需求。传统的公平度量指标集中在基于离散准确性的评估（即预测正确性）上，无法捕获模型不确定性的隐式影响（例如，尽管精度相似，但还是对一个组的更高模型置信度更高，而另一组的置信度更高）。为了解决这一限制，我们提出了一个不确定性意识的公平度量，ucerf，可以对模型公平进行精细的评估，与…

2025年7月4日 00:00

了解Mamba中的输入选择性

Understanding Input Selectivity in Mamba

State-Space Models (SSMs), and particularly Mamba, have recently emerged as a promising alternative to Transformers.Mamba introduces input selectivity to its SSM layer (S6) andincorporates convolution and gating into its block definition.While these modifications do improve Mamba's performance over

2025年7月2日 00:00

大语言模型中的超级重量

The Super Weight in Large Language Models

最近的作品显示出令人惊讶的结果：一小部分大语言模型（LLM）参数异常值对模型的质量不成比例。 LLM包含数十亿个参数，因此这些小部分（例如0.01％）转化为数十万个参数。在这项工作中，我们提出了一个更令人惊讶的发现：修剪较少的单个参数可以破坏LLM生成文本的能力 - 使困惑度增加了3个数量级，并将零拍的精度降低到猜测。我们提出了一种无数据识别此类参数的方法…

2025年7月1日 00:00

egodex：从大规模以自我为中心的视频

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

模仿操纵的学习存在众所周知的数据稀缺问题。与自然语言和2D计算机视觉不同，没有用于灵巧操作的互联网规模的数据语料库。一种吸引人的选择是以自动扩展的数据源为中心的人类视频。但是，现有的大规模数据集（例如EGO4D）没有本机姿势注释，也不关注对象操纵。为此，我们使用Apple Vision Pro来收集Egodex：迄今为止，最大，最多样化的人类操纵数据集。 Egodex有829个小时的Egentric视频，配对3D…

2025年6月30日 00:00

评估代码生成LLMS中的长距离依赖性处理

Evaluating Long Range Dependency Handling in Code Generation LLMs

随着语言模型支持越来越大的上下文大小，评估其使其有效使用该上下文的能力变得越来越重要。我们分析了Several Code生成模型在上下文Windows中使用多个STEPKEY检索任务处理远距离依赖性的能力，最高为8K令牌。与喜欢流行的海景测试的测试相比，这些任务在难度方面逐渐降低，并允许对模型功能进行更多细微的评估。我们发现，当功能…