Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

强化学习通过自适应揭示基本原理进行推理

RL for Reasoning by Adaptively Revealing Rationales

我们提出,来自部分专家演示的强化学习(RL)不仅仅是一种训练启发式方法,而且是解决复杂序列生成任务的一个有前景的框架。监督微调(SFT)依赖于密集的真实标签,随着序列长度的增长,其成本也越来越高。另一方面,强化学习则面临着稀疏奖励和组合大输出空间的问题。我们通过引入自适应回溯(AdaBack)来解决这个问题,这是一种按样本课程学习算法,在训练期间仅显示目标输出的部分前缀。该...

自然语言处理 (EMNLP) 2025 的经验方法

Empirical Methods in Natural Language Processing (EMNLP) 2025

Apple 将于 11 月 4 日至 9 日在中国苏州举行的年度自然语言处理经验方法 (EMNLP) 会议上展示新的研究成果。 EMNLP 专注于口语处理科学和技术的研究。

迈向机器口译:人类口译研究的教训

Toward Machine Interpreting: Lessons from Human Interpreting Studies

当前的语音翻译系统虽然取得了令人印象深刻的准确度,但其行为相当静态,并且无法像人类口译员那样适应现实世界的情况。为了提高其实际实用性并实现类似口译的体验,准确理解人类口译的本质至关重要。为此,我们从机器翻译领域的角度讨论人类口译文献,同时考虑操作和定性方面。我们确定了语音翻译系统发展的影响……

通过心理支架合理化改进语言模型角色

Improving Language Model Personas via Rationalization with Psychological Scaffolds

使用用户描述或角色提示的语言模型用于预测用户的偏好和意见。然而,现有的构建角色的方法主要依赖于用户的人口统计属性和/或先前的判断,而不依赖于用户判断背后的任何潜在推理。我们引入了 PB&J(行为和判断心理学),这是一个框架,通过纳入用户可能做出某种判断的潜在理由来改进 LM 角色。我们的基本原理是由语言模型生成的,用于明确推理用户在……上的行为

ODKE+:利用法学硕士进行本体引导的开放领域知识提取

ODKE+: Ontology-Guided Open-Domain Knowledge Extraction with LLMs

知识图 (KG) 是许多人工智能应用的基础,但保持其新鲜度和完整性仍然成本高昂。我们推出 ODKE+,这是一个生产级系统,可以自动从网络资源中高精度地提取和摄取数百万个开放域事实。 ODKE+ 将模块化组件组合成可扩展的管道:(1) 提取启动器检测丢失或过时的事实,(2) 证据检索器收集支持文档,(3) 混合知识提取器对大型语言模型 (LLM) 应用基于模式的规则和本体引导提示,(4) ...

用于在资源受限的移动设备上微调 LLM 的内存高效反向传播

Memory-Efficient Backpropagation for Fine-Tuning LLMs on Resource-Constrained Mobile Devices

使用反向传播对大型语言模型 (LLM) 进行微调(即使对于 LoRA 等参数子集)可能比推理更消耗内存,并且对于资源受限的移动设备来说通常被认为是不切实际的。零阶优化 (ZO) 等替代方法可以大大减少内存占用,但代价是模型收敛速度显着减慢(比反向传播多 10 倍到 100 倍的步骤)。我们提出了一种在移动设备上实现反向传播 (MeBP) 的内存高效实现,它可以在内存使用和计算之间提供更好的权衡……

评估评估指标——幻觉检测的幻象

Evaluating Evaluation Metrics -- The Mirage of Hallucination Detection

幻觉对语言模型的可靠性和广泛采用构成了重大障碍,但其准确测量仍然是一个持续的挑战。尽管已经提出了许多特定于任务和领域的指标来评估忠实性和事实性问题,但这些指标的稳健性和泛化性仍未经过测试。在本文中,我们对 4 个数据集、来自 5 个家族的 37 个语言模型和 5 种解码方法的 6 组不同的幻觉检测指标进行了大规模的实证评估。我们的广泛调查揭示了……方面的差距

PrimeX:世界观、观点和解释的数据集

PrimeX: A Dataset of Worldview, Opinion, and Explanation

随着语言模型的采用不断进步,更好地向模型表示个人用户的需求也在不断增加。语言模型是否可以利用个人信念系统的某些方面来改善一致性?根据之前的研究,我们通过开发 PrimeX 在舆论预测领域研究这个问题,PrimeX 是一个来自 858 名美国居民的民意调查数据的数据集,还有两个额外的信仰信息来源:受访者对其为何持有特定观点的书面解释,以及用于评估受访者世界观的原始世界信仰调查。我们……

打破视频法学硕士基准:知识、空间感知还是真正的时间理解?

Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?

本文在 NeurIPS 2025 的 Evaluating the Evolving LLM Lifecycle Workshop 上被接受。现有的视频理解基准通常将基于知识的问题和纯粹基于图像的问题混为一谈,而不是明确隔离模型的时间推理能力,而这是区分视频理解与其他模态的关键方面。我们发现了两个主要限制,这些限制掩盖了较高的分数是否真正表明对视频中的动态内容有更强的理解:(1)强大的语言先验,模型可以在不观看视频的情况下回答问题;和(2)...

Pico-Banana-400K:用于文本引导图像编辑的大规模数据集

Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing

多模态模型的最新进展展示了卓越的文本引导图像编辑功能,GPT-4o 和 Nano-Banana 等系统树立了新的基准。然而,由于缺乏根据真实图像构建的大规模、高质量且可公开访问的数据集,研究界的进展仍然受到限制。我们推出 Pico-Banana-400K,这是一个用于基于指令的图像编辑的综合 400K 图像数据集。我们的数据集是通过利用 Nano-Banana 从 OpenImages 集合中的真实照片生成不同的编辑对来构建的。有何区别......

错误指定的基于仿真的推理中的归纳域转移

Inductive Domain Transfer In Misspecified Simulation-Based Inference

基于模拟的推理 (SBI) 是一种统计推理方法,用于在可能性难以处理但可以进行模拟时估计物理系统的潜在参数。在实践中,SBI 经常受到模型错误指定的阻碍——由于固有的建模简化而导致模拟和现实世界观察结果之间的不匹配。 RoPE 是一种最新的 SBI 方法,它通过两阶段域传输过程解决了这一挑战,该过程将半监督校准与基于最佳传输 (OT) 的分布对齐相结合。然而,RoPE 以完全传导的方式运行……

通过多步提示和目标推理在实体链接中利用大型语言模型的力量

Leveraging Power of Large Language Model in Entity Linking via Multi-step Prompting and Targeted Reasoning

实体链接 (EL) 传统上依赖于大型注释数据集和广泛的模型微调。虽然最近的小样本方法通过提示来利用大型语言模型 (LLM) 来减少训练要求,但由于昂贵的基于 LLM 的推理,它们常常效率低下。 ARTER(自适应路由和目标实体推理)提出了一种结构化管道,通过策略性地结合候选生成、基于上下文的评分、自适应路由和选择性推理,无需深度微调即可实现高性能。 ARTER 计算一小组...

提示后的偏见:大型语言模型中的持续歧视

Bias after Prompting: Persistent Discrimination in Large Language Models

从偏见转移假设 (BTH) 的先前工作中可以得出的一个危险假设是,偏见不会从预先训练的大型语言模型 (LLM) 转移到适应模型。我们通过研究提示适应下因果模型中的 BTH 来验证这一假设,因为提示是现实世界应用中非常流行且易于使用的适应策略。与之前的工作相比,我们发现偏见可以通过提示转移,而流行的基于提示的缓解方法并不能始终阻止偏见的转移。具体来说,相关性......

运动房间:未摆位的室内 3D 物体检测作为定位和映射

Rooms from Motion: Un-posed Indoor 3D Object Detection as Localization and Mapping

我们重新审视场景级 3D 对象检测,将其作为以对象为中心的框架的输出,该框架能够使用面向 3D 的框作为底层几何基元进行定位和映射。虽然现有的 3D 对象检测方法在全局范围内运行,并且隐式依赖于公制相机姿势的先验存在,但我们的方法“Rooms from Motion (RfM)”对一组未摆姿势的图像进行操作。通过将基于运动结构的标准 2D 关键点匹配器替换为基于图像派生 3D 框的以对象为中心的匹配器,我们可以估计公制相机姿势、对象轨迹和……

Switchboard-Affect:会话语音的情绪感知标签

Switchboard-Affect: Emotion Perception Labels from Conversational Speech

了解语音情感数据集管理和标记的细微差别对于评估语音情感识别 (SER) 模型在现实应用中的潜力至关重要。大多数训练和评估数据集包含表演或伪表演语音(例如播客语音),其中情绪表达可能被夸大或以其他方式故意修改。此外,基于人群感知标记的数据集通常缺乏给注释者的指导方针的透明度。这些因素使得理解模型性能和确定需要改进的必要领域变得困难。到...

使用 SWE-Gym 培训软件工程代理和验证员

Training Software Engineering Agents and Verifiers with SWE-Gym

我们推出了 SWE-Gym,这是第一个用于培训现实世界软件工程 (SWE) 代理的环境。 SWE-Gym 包含 2,438 个真实的 Python 任务实例,每个实例都包含一个具有可执行运行时环境、单元测试和以自然语言指定的任务的代码库。我们使用 SWE-Gym 来训练基于语言模型的 SWE 代理,在流行的 SWE-Bench Verified 和 Lite 测试集上实现了高达 19% 的解决率绝对增益。我们还通过在 SWE-Gym 采样的代理轨迹上训练的验证器来实验推理时间缩放。与我们经过微调的 SWE 结合使用...

CPEP:对比姿势 EMG 预训练增强 EMG 信号的手势概括

CPEP: Contrastive Pose-EMG Pre-training Enhances Gesture Generalization on EMG Signals

本文已被 NeurIPS 2025 的大脑和身体基础模型研讨会接受。使用视频、图像和手部骨骼等高质量结构化数据进行手势分类是计算机视觉中一个经过充分探索的问题。利用低功耗、经济高效的生物信号,例如表面肌电图 (sEMG) 可在可穿戴设备上进行连续手势预测。在本文中,我们证明,从与结构化、高质量数据一致的弱模态数据中学习表示可以提高表示质量并实现零样本……

使用自动编码器变压器模型进行软件缺陷预测

Software Defect Prediction using Autoencoder Transformer Model

由 AI-ML 驱动的质量工程方法使用 AI-ML 通过预测缺陷来增强软件质量评估。现有的机器学习模型难以应对噪声数据类型、不平衡、模式识别、特征提取和泛化等问题。为了应对这些挑战,我们开发了一种新模型,即基于自适应差分进化(ADE)的量子变分自编码器-变换器(QVAET)模型(ADE-QVAET)。 ADE 与 QVAET 相结合,获得高维潜在特征并保持顺序依赖性,从而提高缺陷预测的准确性。 ADE 优化增强模型...