Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

Goldilocks RL:调整任务难度以逃避推理奖励稀疏

Goldilocks RL: Tuning Task Difficulty to Escape Sparse Rewards for Reasoning

强化学习已成为解锁大型语言模型推理能力的强大范例。然而,依赖稀疏的奖励使得这个过程的样本效率非常低,因为模型必须以最少的反馈来导航巨大的搜索空间。虽然经典课程学习的目的是通过根据复杂性对数据进行排序来缓解这种情况,但特定模型的正确排序通常是不清楚的。为了解决这个问题,我们提出了 Goldilocks,这是一种新颖的教师驱动的数据采样策略,旨在预测学生模型的每个问题的难度。教师模型...

AMES:通过后期交互检索进行近似多模式企业搜索

AMES: Approximate Multi-modal Enterprise Search via Late Interaction Retrieval

我们提出了 AMES(近似多模式企业搜索),这是一种与后端无关的统一多模式后期交互检索架构。 AMES 证明,细粒度多模式后期交互检索可以部署在生产级企业搜索引擎中,而无需重新设计架构。使用多向量编码器将文本标记、图像块和视频帧嵌入到共享表示空间中,从而无需特定于模态的检索逻辑即可实现跨模态检索。 AMES 采用两阶段管道:并行令牌级 ANN 搜索,每个…

TrajTok:学习轨迹标记可实现更好的视频理解

TrajTok: Learning Trajectory Tokens enables better Video Understanding

视频模型中的标记化(通常通过补丁化)会生成过多且冗余的标记。这严重限制了视频效率和可扩展性。虽然最近基于轨迹的标记器通过将视频持续时间与标记计数解耦提供了一种有前途的解决方案,但它们依赖于复杂的外部分段和跟踪管道,这些管道速度缓慢且与任务无关。我们提出 TrajTok,一个端到端视频标记器模块,它与视频模型完全集成并共同训练以实现下游目标,动态调整其标记粒度以适应语义复杂性......

RubiCap:用于密集图像字幕的 Rubric 引导强化学习

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

密集图像字幕对于视觉语言预训练和文本到图像生成中的跨模式对齐至关重要,但扩展专家质量注释的成本却极其昂贵。虽然通过强大的视觉语言模型 (VLM) 进行合成字幕是一种实用的替代方案,但监督蒸馏通常会产生有限的输出多样性和弱泛化性。强化学习(RL)可以克服这些限制,但迄今为止它的成功主要集中在依赖确定性检查器的可验证领域——这是开放式字幕所不具备的奢侈品。我们……

多语言推理健身房:程序推理环境的多语言扩展

Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments

我们提出了多语言推理 Gym,它是 Reasoning Gym(Stojanovski 等人,2025)的扩展,它可以在程序上生成跨 14 种语言的可验证推理问题。我们翻译 94 项任务的模板,并以 10 种语言进行母语验证,并进行有针对性的代码或模板调整,以确保语言的自然性。多语言推理 Gym 保留了原始 Reasoning Gym 中使用的程序生成方法的核心优势,例如几乎无限的问题实例生成和可调整的难度,并且仍然可直接用于强化......

mAceReason-Math:为 RLVR 准备的高质量多语言数学问题数据集

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

带可验证奖励的强化学习 (RLVR) 已成功应用于显着提升预训练大型语言模型的能力,特别是在数学和逻辑问题领域。然而,当前的研究和可用的训练数据集仍然以英语为中心。虽然过去已经创建了多语言训练数据和基准,但它们在创建时并未考虑到 RLVR 和当前模型的功能,而且它们的难度通常太低,无法为当前模型提供适当的训练信号。为了解决这一差距,我们提供了 mAceReason-Math,...

LiTo:表面光场标记化

LiTo: Surface Light Field Tokenization

我们提出了一种 3D 潜在表示,可以对对象几何形状和依赖于视图的外观进行联合建模。大多数先前的工作都集中于重建 3D 几何或预测与视图无关的漫反射外观,因此很难捕捉真实的视图相关效果。我们的方法利用 RGB 深度图像提供表面光场的样本。通过将该表面光场的随机子样本编码为一组紧凑的潜在向量,我们的模型学会了在统一的 3D 潜在空间中表示几何形状和外观。这种表示再现了视图相关的...

多频融合实现稳健的视频人脸伪造检测

Multi-Frequency Fusion for Robust Video Face Forgery Detection

当前的人脸视频伪造检测器使用宽主干或双流主干。我们证明,两个手工制作的线索的单一、轻量级融合可以通过更小的模型实现更高的准确性。基于 Xception 基线模型(2190 万个参数),我们构建了两个检测器:LFWS,它添加了 1x1 卷积,以将低频小波去噪特征 (WDF) 与仅相位空间相位浅层学习 (SPSL) 图相结合;LFWL,它以相同的方式将 WDF 与局部二值模式 (LBP) 合并。这个额外的模块仅添加 292 个参数,使总数保持在 2190 万个——更小……

半离散耦合的流量匹配

Flow Matching with Semidiscrete Couplings

参数化为与时间相关的速度场的流动模型可以通过积分 ODE 从噪声生成数据。这些模型通常使用流匹配进行训练,即通过对噪声和目标点 (x0,x1)(\mathbf{x}_0, \mathbf{x}_1)(x0​,x1​) 的随机对进行采样,并确保沿分段链接评估时速度场平均与 x1−x0\mathbf{x}_1 - \mathbf{x}_0x1​−x0​ 对齐x0\mathbf{x}_0x0​ 到 x1\mathbf{x}_1x1​。虽然默认情况下这些对是独立采样的,但也可以通过将 nnn 噪声批次与 nnn 目标匹配来更仔细地选择它们......

GenCtrl——生成模型的形式可控性工具包

GenCtrl -- A Formal Controllability Toolkit for Generative Models

随着生成模型变得无处不在,迫切需要对生成过程进行细粒度控制。然而,虽然从提示到微调的受控生成方法激增,但一个基本问题仍未得到解答:这些模型首先真的是可控的吗?在这项工作中,我们提供了一个理论框架来正式回答这个问题。将人类模型交互视为一个控制过程,我们提出了一种新颖的算法来估计对话设置中的可控模型集。值得注意的是,我们对估计误差提供正式保证......

论智能与判断分离的不可能性:AI 对齐过滤的计算难题

On the Impossibility of Separating Intelligence from Judgment: The Computational Intractability of Filtering for AI Alignment

随着大型语言模型 (LLM) 部署的增加,人们担心它们可能被滥用来生成有害内容。我们的工作研究对齐挑战,重点是过滤器以防止生成不安全信息。两个自然的干预点是在输入提示到达模型之前对其进行过滤,以及在生成后对输出进行过滤。我们的主要结果证明了过滤提示和输出方面的计算挑战。首先,我们表明存在没有有效提示过滤器的法学硕士:对抗性提示......

EMBridge:通过跨模态表示学习增强 EMG 信号的手势泛化

EMBridge: Enhancing Gesture Generalization from EMG Signals through Cross-Modal Representation Learning

使用视频、图像和手部骨骼等高质量结构化数据进行手势分类是计算机视觉中一个经过充分探索的问题。或者,利用低功耗、经济高效的生物信号,例如表面肌电图 (sEMG),可以在可穿戴设备上进行连续手势预测。在这项工作中,我们的目标是通过将其与从结构化、高质量模态获得的嵌入对齐来提高 EMG 表示质量,这些模态提供丰富的语义指导,最终实现零样本手势泛化。具体来说,我们建议 EMBridge,一个...

扩展搜索相关性:利用 LLM 生成的判断提高应用商店排名

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

大型商业搜索系统优化相关性以推动成功的会话,帮助用户找到他们正在寻找的内容。为了最大化相关性,我们利用两个互补的目标:行为相关性(用户倾向于点击或下载的结果)和文本相关性(结果的语义适合查询)。一个持续存在的挑战是相对于丰富的行为相关性标签而言,专家提供的文本相关性标签的稀缺。我们首先通过系统地评估 LLM 配置来解决这个问题,发现一个专门的、经过微调的模型显着......

我们注意到的方式,这才是真正重要的:实例化具有独特变化的 UI 组件

The Way We Notice, That's What Really Matters: Instantiating UI Components with Distinguishing Variations

前端开发人员通过参数化视觉和行为属性来编写可广泛重用的 UI 组件。虽然很灵活,但这使得实例化变得更加困难,因为开发人员必须推理大量的属性值和交互。在实践中,他们必须探索组件的大设计空间,并为属性提供现实和自然的价值。为了解决这个问题,我们引入了显着的变化:既模仿又独特的变化。我们将区分变异的生成框架为设计空间采样,结合符号推理来识别视觉上重要的......

建设性电路放大:通过有针对性的子网络更新改进法学硕士的数学推理

Constructive Circuit Amplification: Improving Math Reasoning in LLMs via Targeted Sub-Network Updates

之前对法学硕士内部运作的研究发现了稀疏子网络,通常称为电路,负责执行特定任务。此外,研究表明,通过微调来提高模型性能通常来自于模型中现有电路的强化。总而言之,这些发现表明直接干预此类电路以进行精确的、针对任务的更新的可能性。受这些发现的启发,我们提出了一种称为“结构性电路放大”的新方法,它可以识别关键令牌……

缩小法学硕士文本和语音理解之间的差距

Closing the Gap Between Text and Speech Understanding in LLMs

大型语言模型 (LLM) 可以进行调整,将其文本功能扩展到语音输入。然而,这些适应语音的法学硕士在语言理解任务上始终表现不佳,甚至低于基于文本的法学硕士,甚至级联管道。我们将这种缺陷称为文本-语音理解差距:相对于基于原始文本的 LLM 处理等效文本,当适应语音的 LLM 处理语音输入时观察到的性能下降。最近缩小这一差距的方法要么依赖文本语料库的大规模语音合成,但成本高昂且严重依赖……

A.R.I.S.:利用深度学习进行电子垃圾分类的自动回收识别系统

A.R.I.S.: Automated Recycling Identification System for E-Waste Classification Using Deep Learning

传统的电子回收流程由于材料分离和识别能力不足而遭受严重的资源损失,限制了材料的回收。我们推出 A.R.I.S. (自动回收识别系统)是一种低成本便携式电子垃圾粉碎分拣机,可解决这一效率差距。该系统采用YOLOx模型对金属、塑料和电路板进行实时分类,实现低推理延迟和高检测精度。实验评估产生了 90% 的总体精度、82.2% 的平均精度 (mAP) 和 84% 的分类…

超越单一提取器:重新思考 LLM 预训练的 HTML 到文本提取

Beyond a Single Extractor: Re-thinking HTML-to-Text Extraction for LLM Pretraining

构建网络规模的 LLM 预训练数据集的首要预处理步骤之一涉及从 HTML 中提取文本。尽管网络内容多种多样,但现有的开源数据集主要对所有网页应用单个固定提取器。在这项工作中,我们调查这种做法是否会导致互联网数据的覆盖和利用不理想。我们首先表明,虽然不同的提取器可能会在标准语言理解任务上产生相似的模型性能,但在固定过滤管道中幸存的页面可能会有很大差异。这表明一个简单的...