在这项工作中,我们实证研究了用于文本到图像生成的扩散变压器 (DiT),重点关注架构选择、文本调节策略和训练协议。我们评估了一系列基于 DiT 的架构(包括 PixArt 风格和 MMDiT 变体),并将它们与直接处理串联文本和噪声输入的标准 DiT 变体进行比较。令人惊讶的是,我们的研究结果表明,标准 DiT 的性能与那些专用模型相当,同时表现出卓越的参数效率,尤其是在扩大规模时。利用分层......
Multi-View Causal Discovery without Non-Gaussianity: Identifiability and Algorithms
因果发现是一个难题,通常依赖于对数据生成模型的强假设,例如非高斯性。在实践中,许多现代应用程序提供同一系统的多个相关视图,这很少被考虑用于因果发现。在这里,我们利用这种多视图结构来实现弱假设的因果发现。我们提出了一种多视图线性结构方程模型(SEM),它通过交替利用视图的相关性来扩展众所周知的非高斯扰动框架。我们证明了……的可识别性
ChipChat: Low-Latency Cascaded Conversational Agent in MLX
大语言模型 (LLM) 的出现改变了口语对话系统,但实时设备语音代理的最佳架构仍然是一个悬而未决的问题。虽然端到端方法在理论上具有优势,但级联系统(CS)在语言理解任务中继续优于它们,尽管受到顺序处理延迟的限制。在这项工作中,我们介绍了 ChipChat,这是一种新颖的低延迟 CS,它通过架构创新和流优化克服了传统瓶颈。我们的系统集成了流式(a)会话语音......
从智能手机和可穿戴设备被动获取的数据可以提供近乎连续的客观信息,从而能够量化受心理健康状况(包括抑郁和焦虑)影响的广泛生理、行为和情感领域的状态和特征。这种数字表型分析的广泛应用可能会改变研究和临床护理中对抑郁和焦虑的评估,但该领域缺乏有力的纵向研究来证明这种方法的实用性。本文介绍了数字化...的设计和实现
Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling
标准离散扩散模型通过将所有未观察到的状态映射到吸收 [MASK] 标记来同等对待它们。这会产生一个“信息空白”,其中可以从未屏蔽的标记推断出的语义信息在去噪步骤之间丢失。我们引入了连续增强离散扩散(CADD),这是一个通过连续潜在空间中的成对扩散来增强离散状态空间的框架。这会产生分级的、逐渐损坏的状态,其中屏蔽的标记由嘈杂但信息丰富的潜在向量表示,而不是崩溃的“信息空白”。在...
Chain-of-Sketch: Enabling Global Visual Reasoning
现代视觉模型在基准测试中取得了显着的成功,其中局部特征提供了有关目标的关键信息。现在,人们越来越有兴趣处理需要更多全局推理的任务,其中局部特征无法提供重要信息。 Minsky 和 Papert 于 1969 年通过连通性研究提出了此类任务,暴露了感知器模型的局限性。在本文中,我们介绍了一组扩展的全局视觉数据集,涉及图形、字符串、迷宫和图像网格。我们表明大型视觉模型仍然难以学习这些任务......
Semantic Mastery: Enhancing LLMs with Advanced Natural Language Understanding
大型语言模型(LLM)极大地提高了执行 NLP 任务的能力。然而,更深入的语义理解、上下文连贯性和更微妙的推理仍然很难获得。本文讨论了通过更先进的 NLU 技术(例如语义解析、知识整合和上下文强化学习)推进法学硕士发展的最先进方法。我们分析了结构化知识图、检索增强生成(RAG)以及将模型与人类理解水平相匹配的微调策略的使用。此外,我们解决...
Reinforcement Learning Integrated Agentic RAG for Software Test Cases Authoring
本文介绍了一个将强化学习 (RL) 与自主代理集成在一起的框架,以持续改进质量工程 (QE) 工作流程中根据业务需求文档编写软件测试用例的自动化过程。采用大型语言模型 (LLM) 的传统系统从静态知识库生成测试用例,这从根本上限制了它们随着时间的推移提高性能的能力。我们提出的强化注入代理 RAG(检索、增强、生成)框架通过采用人工智能代理来克服这一限制……
适应人类偏好对于创建可提供个性化且有效交互的 AI 代理至关重要。最近的研究表明,法学硕士有可能从用户交互中推断偏好,但它们通常会产生广泛且通用的偏好,无法捕捉人类偏好的独特和个性化本质。本文介绍了 PREDICT,一种旨在提高偏好推断精度和适应性的方法。 PREDICT 包含三个关键要素:(1) 推断偏好的迭代细化,(2) 将偏好分解为……
Semantic Regexes: Auto-Interpreting LLM Features with a Structured Language
自动可解释性旨在将大型语言模型 (LLM) 特征转换为人类可理解的描述。然而,这些自然语言特征描述往往模糊、不一致,需要手动重新标记。作为回应,我们引入了语义正则表达式,即 LLM 功能的结构化语言描述。通过将捕获语言和语义特征模式的原语与上下文化、组合和量化的修饰符相结合,语义正则表达式可以生成精确且富有表现力的特征描述。跨越定量基准和定性......
Hybrid Modeling of Photoplethysmography for Non-Invasive Monitoring of Cardiovascular Parameters
持续心血管监测可以在精准健康中发挥关键作用。然而,一些感兴趣的基本心脏生物标志物,包括每搏输出量和心输出量,需要侵入性测量,例如动脉压波形(APW)。作为一种非侵入性替代方案,光电体积描记法 (PPG) 测量值通常在医院环境中收集。不幸的是,通过 PPG 而不是 APW 来预测关键心脏生物标志物仍然是一个开放的挑战,而且由于缺乏带注释的 PPG 测量结果而变得更加复杂。作为解决方案,我们提出了一种混合方法,该方法使用......
Sample and Map from a Single Convex Potential: Generation using Conjugate Moment Measures
生成建模中的规范方法是将模型拟合分为两个块:首先定义如何对噪声进行采样(例如高斯),然后选择下一步如何处理它(例如使用单个映射或流)。我们在这项工作中探索了一条将采样和绘图联系起来的替代途径。我们在矩量度中找到了灵感,该结果表明对于任何量度 ρ ,都存在唯一的凸势 u ,使得 ρ = ∇u♯e-u 。虽然这似乎确实有效地将采样(来自对数凹分布 e-u)和动作(推动粒子通过 ∇u)联系起来,但我们在简单的例子中观察到(例如......
Towards a Better Evaluation of 3D CVML Algorithms: Immersive Debugging of a Localization Model
随着机器人、自动驾驶和空间计算领域的不断进步,越来越多的计算机视觉和机器学习 (CVML) 算法正在将三维数据纳入其框架中。调试这些 3D CVML 模型通常需要超越传统的性能评估方法,需要更深入地了解算法在时空背景下的行为。然而,缺乏适当的可视化工具给有效探索与关键相关的 3D 数据和空间特征带来了重大障碍......
Apple Machine Learning Research at NeurIPS 2025
Apple 研究人员通过基础研究推进 AI 和 ML,并支持更广泛的研究社区并帮助加速该领域的进展,我们通过出版物和会议参与分享了大部分工作。下个月,第 39 届神经信息处理系统 (NeurIPS) 年度会议将在加利福尼亚州圣地亚哥举行,卫星活动还将在墨西哥墨西哥城举行。 Apple 很自豪能够再次参与这一重要的社区活动,并通过我们的赞助来支持它。在主会议和相关的……
Neural Information Processing Systems (NeurIPS) 2025
Apple 将在 12 月 2 日至 7 日在加利福尼亚州圣地亚哥举行的神经信息处理系统 (NeurIPS) 年度会议上展示新的研究成果。我们很荣幸再次赞助这场多轨道跨学科会议,该会议汇集了围绕机器学习的科学和工业研究社区。以下是 Apple 参加 NeurIPS 2025 的概述。
Speech Foundation Models Generalize to Time Series Tasks from Wearable Sensor Data
本文在 NeurIPS 2025 的健康时间序列学习研讨会上被接受。语音和传感器时间序列数据都在时域和频域中编码信息,例如谱功率和波形 shapelet。我们表明,语音基础模型可以学习泛化到语音领域之外的表示,并在可穿戴传感器的各种时间序列任务上实现最先进的性能。根据从 HuBERT 和 wav2vec 2.0 提取的特征进行训练的探针优于从直接在特定模态数据集上训练的自监督模型中提取的探针......
Learning the Relative Composition of EEG Signals Using Pairwise Relative Shift Pretraining
本文在 NeurIPS 2025 的大脑和身体基础模型研讨会上被接受。自监督学习 (SSL) 提供了一种很有前途的方法,可以从未标记的数据中学习脑电图 (EEG) 表示,从而减少睡眠分期和癫痫检测等临床应用对昂贵注释的需求。虽然当前的 EEG SSL 方法主要使用屏蔽重建策略,例如捕获局部时间模式的屏蔽自动编码器 (MAE),但位置预测预训练仍然未被充分探索,尽管它具有学习远程的潜力......
Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition
本文在 NeurIPS 2025 的健康时间序列学习研讨会上被接受。传感器数据流为下游应用程序提供有关活动和背景的有价值的信息,尽管集成补充信息可能具有挑战性。我们表明,大型语言模型(LLM)可用于后期融合,以根据音频和运动时间序列数据进行活动分类。我们从 Ego4D 数据集中整理了一个数据子集,用于跨环境(例如家庭活动、运动)的各种活动识别。经评估的法学硕士取得了 12 级零和一次机会……