Sample and Map from a Single Convex Potential: Generation using Conjugate Moment Measures
生成建模中的规范方法是将模型拟合分为两个块:首先定义如何对噪声进行采样(例如高斯),然后选择下一步如何处理它(例如使用单个映射或流)。我们在这项工作中探索了一条将采样和绘图联系起来的替代途径。我们在矩量度中找到了灵感,该结果表明对于任何量度 ρ ,都存在唯一的凸势 u ,使得 ρ = ∇u♯e-u 。虽然这似乎确实有效地将采样(来自对数凹分布 e-u)和动作(推动粒子通过 ∇u)联系起来,但我们在简单的例子中观察到(例如......
Towards a Better Evaluation of 3D CVML Algorithms: Immersive Debugging of a Localization Model
随着机器人、自动驾驶和空间计算领域的不断进步,越来越多的计算机视觉和机器学习 (CVML) 算法正在将三维数据纳入其框架中。调试这些 3D CVML 模型通常需要超越传统的性能评估方法,需要更深入地了解算法在时空背景下的行为。然而,缺乏适当的可视化工具给有效探索与关键相关的 3D 数据和空间特征带来了重大障碍......
Neural Information Processing Systems (NeurIPS) 2025
Apple 将在 12 月 2 日至 7 日在加利福尼亚州圣地亚哥举行的神经信息处理系统 (NeurIPS) 年度会议上展示新的研究成果。我们很荣幸再次赞助这场多轨道跨学科会议,该会议汇集了围绕机器学习的科学和工业研究社区。以下是 Apple 参加 NeurIPS 2025 的概述。
Apple Machine Learning Research at NeurIPS 2025
Apple 研究人员通过基础研究推进 AI 和 ML,并支持更广泛的研究社区并帮助加速该领域的进展,我们通过出版物和会议参与分享了大部分工作。下个月,第 39 届神经信息处理系统 (NeurIPS) 年度会议将在加利福尼亚州圣地亚哥举行,卫星活动还将在墨西哥墨西哥城举行。 Apple 很自豪能够再次参与这一重要的社区活动,并通过我们的赞助来支持它。在主会议和相关的……
Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition
本文在 NeurIPS 2025 的健康时间序列学习研讨会上被接受。传感器数据流为下游应用程序提供有关活动和背景的有价值的信息,尽管集成补充信息可能具有挑战性。我们表明,大型语言模型(LLM)可用于后期融合,以根据音频和运动时间序列数据进行活动分类。我们从 Ego4D 数据集中整理了一个数据子集,用于跨环境(例如家庭活动、运动)的各种活动识别。经评估的法学硕士取得了 12 级零和一次机会……
Speech Foundation Models Generalize to Time Series Tasks from Wearable Sensor Data
本文在 NeurIPS 2025 的健康时间序列学习研讨会上被接受。语音和传感器时间序列数据都在时域和频域中编码信息,例如谱功率和波形 shapelet。我们表明,语音基础模型可以学习泛化到语音领域之外的表示,并在可穿戴传感器的各种时间序列任务上实现最先进的性能。根据从 HuBERT 和 wav2vec 2.0 提取的特征进行训练的探针优于从直接在特定模态数据集上训练的自监督模型中提取的探针......
VLSU: Mapping the Limits of Joint Multimodal Understanding for AI Safety
本文在 NeurIPS 2025 的“从评估不断发展的法学硕士生命周期中学习”研讨会上被接受。多模式基础模型的安全评估通常单独处理视觉和语言输入,忽略了联合解释的风险,即良性内容组合起来会变得有害。现有的方法也无法区分明显不安全的内容和边缘情况,导致对真正有害的内容存在过度阻止或拒绝不足的问题。我们提出视觉语言安全理解(VLSU),这是一个系统评估多模式的综合框架……
Learning the Relative Composition of EEG Signals Using Pairwise Relative Shift Pretraining
本文在 NeurIPS 2025 的大脑和身体基础模型研讨会上被接受。自监督学习 (SSL) 提供了一种很有前途的方法,可以从未标记的数据中学习脑电图 (EEG) 表示,从而减少睡眠分期和癫痫检测等临床应用对昂贵注释的需求。虽然当前的 EEG SSL 方法主要使用屏蔽重建策略,例如捕获局部时间模式的屏蔽自动编码器 (MAE),但位置预测预训练仍然未被充分探索,尽管它具有学习远程的潜力......
Exploring LLMs with MLX and the Neural Accelerators in the M5 GPU
采用 Apple 芯片的 Mac 越来越受到那些有兴趣使用 Mac 来试验最新模型和技术的人工智能开发人员和研究人员的欢迎。借助 MLX,用户可以在 Mac 上高效地探索和运行 LLM。它允许研究人员在自己的硬件上试验新的推理或微调技术,或在私人环境中研究人工智能技术。 MLX 可与所有 Apple 芯片系统配合使用,并且在最新的 macOS beta 版本1中,它现在可以利用新款 14 英寸 MacBook Pro 中引入的新型 M5 芯片中的神经加速器。神经...
CAR-Flow: Condition-Aware Reparameterization Aligns Source and Target for Better Flow Matching
条件生成建模旨在从包含数据条件对的样本中学习条件数据分布。为此,扩散和基于流动的方法已经取得了引人注目的结果。这些方法使用学习的(流)模型将忽略条件的初始标准高斯噪声传输到条件数据分布。因此,该模型需要学习质量传输和条件注射。为了缓解对模型的需求,我们提出了流量匹配的条件感知重新参数化(CAR-Flow)——一种轻量级的、学习性的转变,可以调节……
ExpertLens: Activation Steering Features Are Highly Interpretable
本文在 NeurIPS 2025 的统一神经模型表示研讨会 (UniReps) 上被接受。大语言模型 (LLM) 中的激活引导方法已成为执行有针对性的更新以增强生成语言的有效方法,而无需大量适应数据。我们询问激活引导方法发现的特征是否可以解释。我们使用激活控制研究中的“寻找专家”方法来识别负责特定概念(例如“猫”)的神经元,并表明 ExpertLens,即检查这些......
Learning Deformable Body Interactions With Adaptive Spatial Tokenization
本文已被 NeurIPS 2025 的 AI for Science Workshop 接受。模拟可变形体之间的相互作用在材料科学、机械设计和机器人等领域至关重要。虽然使用图神经网络 (GNN) 的基于学习的方法可以有效解决复杂的物理系统,但在对可变形身体交互进行建模时会遇到可扩展性问题。为了对对象之间的交互进行建模,必须动态创建成对的全局边缘,这对于大规模网格而言是计算密集型且不切实际的。为了克服这些挑战,借鉴......
Adapting Self-Supervised Representations as a Latent Space for Efficient Generation
我们引入了 Representation Tokenizer (RepTok),这是一种生成建模框架,它使用从自监督视觉转换器获得的单个连续潜在标记来表示图像。在预先训练的 SSL 编码器的基础上,我们仅微调语义标记嵌入,并将其与使用标准流匹配目标联合训练的生成解码器配对。这种适应通过低级的、与重建相关的细节丰富了令牌,从而实现了忠实的图像重建。为了保留原始 SSL 空间的有利几何形状,我们添加了余弦相似度损失......
LinEAS: End-to-end Learning of Activation Steering with a Distributional Loss
生成模型在日常生活中的使用越来越多,需要有效的机制来控制其生成,例如生成安全的内容或为用户提供探索风格变化的工具。理想情况下,这种机制应该需要少量的未配对数据(即没有明确的偏好),并且在训练和推理时都应该便宜,同时保持输出质量。最近的研究表明,这种机制可以通过专门干预模型激活来获得,目的是纠正使用提示时看到的激活之间的分布差异......
Embedding Atlas: Low-Friction, Interactive Embedding Visualization
嵌入投影通常用于可视化大型数据集和模型。然而,人们在使用嵌入可视化工具时经常遇到“摩擦”:(1)采用障碍,例如繁琐的数据整理和加载、可扩展性限制、无法将结果集成到现有工作流程中,以及(2)可能的分析限制,无法与外部工具集成以额外显示元数据的协调视图。在本文中,我们介绍了 Embedding Atlas,这是一种可扩展的交互式可视化工具,旨在尽可能轻松地与大型嵌入进行交互......
Policy Maps: Tools for Guiding the Unbounded Space of LLM Behaviors
人工智能政策为人工智能模型的可接受行为设定了界限,但这在大型语言模型 (LLM) 的背景下具有挑战性:如何确保覆盖广阔的行为空间?我们引入了政策地图,这是一种受物理地图制作实践启发的人工智能政策设计方法。政策地图不是以全面覆盖为目标,而是通过有意识的设计选择来帮助有效导航,了解哪些方面要捕获,哪些方面要抽象。借助政策投影仪(一种用于设计法学硕士政策地图的交互式工具),人工智能从业者可以调查模型的情况……
SEMORec: A Scalarized Efficient Multi-Objective Recommendation Framework
多利益相关者环境中的推荐系统通常需要同时针对多个目标进行优化,以满足供应商和消费者的需求。在这些环境中提供建议依赖于有效地结合目标来满足每个利益相关者的期望,通常通过具有预先确定和固定权重的量化函数。在实践中,选择这些权重成为一个随之而来的问题。最近的工作开发了算法,通过使用强化学习来训练模型,根据特定应用的需求来调整这些权重。虽然这解决了自动...
Empirical Methods in Natural Language Processing (EMNLP) 2025
Apple 将于 11 月 4 日至 9 日在中国苏州举行的年度自然语言处理经验方法 (EMNLP) 会议上展示新的研究成果。 EMNLP 专注于口语处理科学和技术的研究。