Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

DiT-Air:重新审视文本到图像生成中扩散模型架构设计的效率

DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation

在这项工作中,我们实证研究了用于文本到图像生成的扩散变压器 (DiT),重点关注架构选择、文本调节策略和训练协议。我们评估了一系列基于 DiT 的架构(包括 PixArt 风格和 MMDiT 变体),并将它们与直接处理串联文本和噪声输入的标准 DiT 变体进行比较。令人惊讶的是,我们的研究结果表明,标准 DiT 的性能与那些专用模型相当,同时表现出卓越的参数效率,尤其是在扩大规模时。利用分层......

无非高斯性的多视图因果发现:可识别性和算法

Multi-View Causal Discovery without Non-Gaussianity: Identifiability and Algorithms

因果发现是一个难题,通常依赖于对数据生成模型的强假设,例如非高斯性。在实践中,许多现代应用程序提供同一系统的多个相关视图,这很少被考虑用于因果发现。在这里,我们利用这种多视图结构来实现弱假设的因果发现。我们提出了一种多视图线性结构方程模型(SEM),它通过交替利用视图的相关性来扩展众所周知的非高斯扰动框架。我们证明了……的可识别性

ChipChat:MLX 中的低延迟级联对话代理

ChipChat: Low-Latency Cascaded Conversational Agent in MLX

大语言模型 (LLM) 的出现改变了口语对话系统,但实时设备语音代理的最佳架构仍然是一个悬而未决的问题。虽然端到端方法在理论上具有优势,但级联系统(CS)在语言理解任务中继续优于它们,尽管受到顺序处理延迟的限制。在这项工作中,我们介绍了 ChipChat,这是一种新颖的低延迟 CS,它通过架构创新和流优化克服了传统瓶颈。我们的系统集成了流式(a)会话语音......

评估大规模数字传感治疗抑郁和焦虑的可行性:数字心理健康研究

Assessing the Feasibility of Large-Scale Digital Sensing for Depression and Anxiety: The Digital Mental Health Study

从智能手机和可穿戴设备被动获取的数据可以提供近乎连续的客观信息,从而能够量化受心理健康状况(包括抑郁和焦虑)影响的广泛生理、行为和情感领域的状态和特征。这种数字表型分析的广泛应用可能会改变研究和临床护理中对抑郁和焦虑的评估,但该领域缺乏有力的纵向研究来证明这种方法的实用性。本文介绍了数字化...的设计和实现

用于分类生成建模的连续增强离散扩散模型

Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling

标准离散扩散模型通过将所有未观察到的状态映射到吸收 [MASK] 标记来同等对待它们。这会产生一个“信息空白”,其中可以从未屏蔽的标记推断出的语义信息在去噪步骤之间丢失。我们引入了连续增强离散扩散(CADD),这是一个通过连续潜在空间中的成对扩散来增强离散状态空间的框架。这会产生分级的、逐渐损坏的状态,其中屏蔽的标记由嘈杂但信息丰富的潜在向量表示,而不是崩溃的“信息空白”。在...

Chain-of-Sketch:启用全局视觉推理

Chain-of-Sketch: Enabling Global Visual Reasoning

现代视觉模型在基准测试中取得了显着的成功,其中局部特征提供了有关目标的关键信息。现在,人们越来越有兴趣处理需要更多全局推理的任务,其中局部特征无法提供重要信息。 Minsky 和 ​​Papert 于 1969 年通过连通性研究提出了此类任务,暴露了感知器模型的局限性。在本文中,我们介绍了一组扩展的全局视觉数据集,涉及图形、字符串、迷宫和图像网格。我们表明大型视觉模型仍然难以学习这些任务......

语义掌握:通过高级自然语言理解增强法学硕士

Semantic Mastery: Enhancing LLMs with Advanced Natural Language Understanding

大型语言模型(LLM)极大地提高了执行 NLP 任务的能力。然而,更深入的语义理解、上下文连贯性和更微妙的推理仍然很难获得。本文讨论了通过更先进的 NLU 技术(例如语义解析、知识整合和上下文强化学习)推进法学硕士发展的最先进方法。我们分析了结构化知识图、检索增强生成(RAG)以及将模型与人类理解水平相匹配的微调策略的使用。此外,我们解决...

用于软件测试用例创作的强化学习集成代理 RAG

Reinforcement Learning Integrated Agentic RAG for Software Test Cases Authoring

本文介绍了一个将强化学习 (RL) 与自主代理集成在一起的框架,以持续改进质量工程 (QE) 工作流程中根据业务需求文档编写软件测试用例的自动化过程。采用大型语言模型 (LLM) 的传统系统从静态知识库生成测试用例,这从根本上限制了它们随着时间的推移提高性能的能力。我们提出的强化注入代理 RAG(检索、增强、生成)框架通过采用人工智能代理来克服这一限制……

PREDICT:通过评估从候选轨迹推断的分解偏好进行偏好推理

PREDICT: Preference Reasoning by Evaluating Decomposed preferences Inferred from Candidate Trajectories

适应人类偏好对于创建可提供个性化且有效交互的 AI 代理至关重要。最近的研究表明,法学硕士有可能从用户交互中推断偏好,但它们通常会产生广泛且通用的偏好,无法捕捉人类偏好的独特和个性化本质。本文介绍了 PREDICT,一种旨在提高偏好推断精度和适应性的方法。 PREDICT 包含三个关键要素:(1) 推断偏好的迭代细化,(2) 将偏好分解为……

语义正则表达式:使用结构化语言自动解释 LLM 功能

Semantic Regexes: Auto-Interpreting LLM Features with a Structured Language

自动可解释性旨在将大型语言模型 (LLM) 特征转换为人类可理解的描述。然而,这些自然语言特征描述往往模糊、不一致,需要手动重新标记。作为回应,我们引入了语义正则表达式,即 LLM 功能的结构化语言描述。通过将捕获语言和语义特征模式的原语与上下文化、组合和量化的修饰符相结合,语义正则表达式可以生成精确且富有表现力的特征描述。跨越定量基准和定性......

用于无创监测心血管参数的光电体积描记法混合建模

Hybrid Modeling of Photoplethysmography for Non-Invasive Monitoring of Cardiovascular Parameters

持续心血管监测可以在精准健康中发挥关键作用。然而,一些感兴趣的基本心脏生物标志物,包括每搏输出量和心输出量,需要侵入性测量,例如动脉压波形(APW)。作为一种非侵入性替代方案,光电体积描记法 (PPG) 测量值通常在医院环境中收集。不幸的是,通过 PPG 而不是 APW 来预测关键心脏生物标志物仍然是一个开放的挑战,而且由于缺乏带注释的 PPG 测量结果而变得更加复杂。作为解决方案,我们提出了一种混合方法,该方法使用......

单凸势的样本和地图:使用共轭矩测量生成

Sample and Map from a Single Convex Potential: Generation using Conjugate Moment Measures

生成建模中的规范方法是将模型拟合分为两个块:首先定义如何对噪声进行采样(例如高斯),然后选择下一步如何处理它(例如使用单个映射或流)。我们在这项工作中探索了一条将采样和绘图联系起来的替代途径。我们在矩量度中找到了灵感,该结果表明对于任何量度 ρ ,都存在唯一的凸势 u ,使得 ρ = ∇u♯e-u 。虽然这似乎确实有效地将采样(来自对数凹分布 e-u)和动作(推动粒子通过 ∇u)联系起来,但我们在简单的例子中观察到(例如......

更好地评估 3D CVML 算法:定位模型的沉浸式调试

Towards a Better Evaluation of 3D CVML Algorithms: Immersive Debugging of a Localization Model

随着机器人、自动驾驶和空间计算领域的不断进步,越来越多的计算机视觉和机器学习 (CVML) 算法正在将三维数据纳入其框架中。调试这些 3D CVML 模型通常需要超越传统的性能评估方法,需要更深入地了解算法在时空背景下的行为。然而,缺乏适当的可视化工具给有效探索与关键相关的 3D 数据和空间特征带来了重大障碍......

NeurIPS 2025 上的 Apple 机器学习研究

Apple Machine Learning Research at NeurIPS 2025

Apple 研究人员通过基础研究推进 AI 和 ML,并支持更广泛的研究社区并帮助加速该领域的进展,我们通过出版物和会议参与分享了大部分工作。下个月,第 39 届神经信息处理系统 (NeurIPS) 年度会议将在加利福尼亚州圣地亚哥举行,卫星活动还将在墨西哥墨西哥城举行。 Apple 很自豪能够再次参与这一重要的社区活动,并通过我们的赞助来支持它。在主会议和相关的……

神经信息处理系统 (NeurIPS) 2025

Neural Information Processing Systems (NeurIPS) 2025

Apple 将在 12 月 2 日至 7 日在加利福尼亚州圣地亚哥举行的神经信息处理系统 (NeurIPS) 年度会议上展示新的研究成果。我们很荣幸再次赞助这场多轨道跨学科会议,该会议汇集了围绕机器学习的科学和工业研究社区。以下是 Apple 参加 NeurIPS 2025 的概述。

语音基础模型可推广到可穿戴传感器数据的时间序列任务

Speech Foundation Models Generalize to Time Series Tasks from Wearable Sensor Data

本文在 NeurIPS 2025 的健康时间序列学习研讨会上被接受。语音和传感器时间序列数据都在时域和频域中编码信息,例如谱功率和波形 shapelet。我们表明,语音基础模型可以学习泛化到语音领域之外的表示,并在可穿戴传感器的各种时间序列任务上实现最先进的性能。根据从 HuBERT 和 wav2vec 2.0 提取的特征进行训练的探针优于从直接在特定模态数据集上训练的自监督模型中提取的探针......

使用成对相对移位预训练学习 EEG 信号的相对组成

Learning the Relative Composition of EEG Signals Using Pairwise Relative Shift Pretraining

本文在 NeurIPS 2025 的大脑和身体基础模型研讨会上被接受。自监督学习 (SSL) 提供了一种很有前途的方法,可以从未标记的数据中学习脑电图 (EEG) 表示,从而减少睡眠分期和癫痫检测等临床应用对昂贵注释的需求。虽然当前的 EEG SSL 方法主要使用屏蔽重建策略,例如捕获局部时间模式的屏蔽自动编码器 (MAE),但位置预测预训练仍然未被充分探索,尽管它具有学习远程的潜力......

使用 LLM 进行后期多模态传感器融合以进行活动识别

Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition

本文在 NeurIPS 2025 的健康时间序列学习研讨会上被接受。传感器数据流为下游应用程序提供有关活动和背景的有价值的信息,尽管集成补充信息可能具有挑战性。我们表明,大型语言模型(LLM)可用于后期融合,以根据音频和运动时间序列数据进行活动分类。我们从 Ego4D 数据集中整理了一个数据子集,用于跨环境(例如家庭活动、运动)的各种活动识别。经评估的法学硕士取得了 12 级零和一次机会……