Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

MUSCLE:兼容 LLM 演化的模型更新策略

MUSCLE: A Model Update Strategy for Compatible LLM Evolution

大型语言模型 (LLM) 会定期更新以提高性能,通常是通过更改数据或架构来实现的。在更新过程中,开发人员通常优先考虑改进整体性能指标,而较少关注与早期模型版本的兼容性。从一个模型版本到下一个模型版本,实例级性能下降(实例回归)可能会干扰用户对特定语言模型功能的心理模型。用户每次更新都必须调整他们的心理模型,这可能会导致不满,尤其是当……

4M-21:适用于数十种任务和模式的任意视觉模型

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

*平等贡献者当前的多模态和多任务基础模型(如 4M 或 UnifiedIO)显示出了良好的结果,但在实践中,它们接受不同输入和执行不同任务的开箱即用能力受到它们所训练的模态和任务数量(通常相当少)的限制。在本文中,我们通过在数十种高度多样化的模态上对其进行训练以及在大规模多模态数据集和文本语料库上进行联合训练,显著扩展了 4M 的功能。这包括对几种语义和几何模态、特征图的训练......

与 Wally 一起进行可扩展的私人搜索

Scalable Private Search with Wally

本文介绍了 Wally,这是一个支持对大型数据库进行高效语义和关键字搜索查询的隐私搜索系统。当有足够多的客户端进行查询时,Wally 的性能明显优于以前的系统。在以前的隐私搜索系统中,对于每个客户端查询,服务器必须对每个数据库条目执行至少一次昂贵的加密操作。因此,性能会随着数据库中条目的数量而成比例下降。在 Wally 中,我们消除了这一限制。具体来说,对于每个查询,服务器都会执行加密……

CAMPHOR:用于设备上多输入规划和高阶推理的协作代理

CAMPHOR: Collaborative Agents for Multi-Input Planning and High-Order Reasoning On Device

虽然服务器端大型语言模型 (LLM) 在工具集成和复杂推理方面表现出色,但直接在设备上部署小型语言模型 (SLM) 带来了改善延迟和隐私的机会,但也带来了准确性和内存方面的独特挑战。我们推出了 CAMPHOR,这是一种创新的设备 SLM 多代理框架,旨在处理多个用户输入并在本地推理个人背景,确保隐私得到维护。 CAMPHOR 采用分层架构,其中高阶推理代理分解复杂任务并协调专家……

渐进熵最优传输求解器

Progressive Entropic Optimal Transport Solvers

最优传输 (OT) 通过提供理论和计算工具来重新调整数据集,对机器学习产生了深远的影响。在这种情况下,给定 Rd\mathbb{R}^dRd 中大小为 nnn 和 mmm 的两个大点云,熵 OT (EOT) 求解器已成为解决 Kantorovich 问题并输出 n×mn\times mn×m 耦合矩阵或解决 Monge 问题并学习矢量值前推图的最可靠工具。尽管 EOT 耦合/映射的稳健性使其成为实际应用中的首选,但由于小问题,EOT 求解器仍然难以调整……

GSM-Symbolic:了解大型语言模型中数学推理的局限性

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

大型语言模型 (LLM) 的最新进展引发了人们对其形式推理能力的兴趣,尤其是在数学方面。GSM8K 基准被广泛用于评估模型在小学水平问题上的数学推理能力。虽然近年来 LLM 在 GSM8K 上的表现显着提高,但它们的数学推理能力是否真正进步仍不清楚,这引发了人们对所报告指标可靠性的质疑。为了解决这些问题,我们对几个 SOTA 开放和封闭模型进行了大规模研究。为了……

对比本地化语言图像预训练

Contrastive Localized Language-Image Pre-Training

对比语言-图像预训练 (CLIP) 是一种广受赞誉的方法,用于训练视觉编码器生成图像/文本表示,以促进各种应用。最近,CLIP 已被广泛用作多模态大型语言模型 (MLLM) 的视觉主干,以连接图像输入以进行语言交互。CLIP 作为视觉语言基础模型的成功依赖于在图像级别对齐网络爬取的嘈杂文本注释。然而,这样的标准可能不足以满足需要细粒度视觉表示的下游任务,尤其是……

Depth Pro:不到一秒即可实现清晰的单目度量深度

Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

我们提出了零样本度量单目深度估计的基础模型。我们的模型 Depth Pro 合成了高分辨率深度图,具有无与伦比的清晰度和高频细节。预测是度量的,具有绝对尺度,而不依赖于元数据(例如相机内在函数)的可用性。而且该模型速度很快,在标准 GPU 上 0.3 秒内即可生成 225 万像素的深度图。这些特性是由许多技术贡献实现的,包括用于密集预测的高效多尺度视觉变换器、结合了……的训练协议

何时需要进行多校准后处理?

When is Multicalibration Post-Processing Necessary?

校准是预测因子的一个经过充分研究的属性,可保证有意义的不确定性估计。多重校准是一个相关概念——源于算法公平性——它要求在可能复杂且重叠的受保护亚群集合(例如按种族、种族或收入定义的群体)上同时校准预测因子。我们进行了首次全面研究,评估了从简单决策树到 90 的模型在广泛的表格、图像和语言数据集上的多重校准后处理的实用性……

关于直接偏好优化引起的隐式奖励模型的有限泛化能力

On the Limited Generalization Capability of the Implicit Reward Model Induced by Direct Preference Optimization

从人类反馈中进行强化学习 (RLHF) 是一种将语言模型与人类偏好保持一致的有效方法。RLHF 的核心是学习用于对人类偏好进行评分的奖励函数。学习奖励模型的两种主要方法是 1) 训练显式奖励模型(如 RLHF)和 2) 使用通过直接偏好优化 (DPO) 等方法从偏好数据中学习的隐式奖励。先前的研究表明,DPO 的隐性奖励模型可以近似训练有素的奖励模型,但尚不清楚 DPO 在多大程度上可以推广到分布……

改进机器翻译处理语法性别歧义的方式

Improving How Machine Translations Handle Grammatical Gender Ambiguity

机器翻译 (MT) 使人们能够跨越语言障碍与他人联系并参与内容。语法性别对这些系统来说是一个艰巨的挑战,因为某些语言要求对在其他语言中可能含糊不清或中性的术语具有特异性。例如,在将英语单词“nurse”翻译成西班牙语时,必须决定女性“enfermera”或男性“enfermero”是否合适。但是,特别是在缺少上下文线索时,例如在翻译单个句子时,模型无法确定哪个是正确的。这……

Misty:通过交互式概念融合进行 UI 原型设计

Misty: UI Prototyping Through Interactive Conceptual Blending

UI 原型设计通常涉及迭代和混合示例中的元素(例如屏幕截图和草图),但当前工具对合并这些示例的支持有限。受概念融合的认知过程的启发,我们引入了一种新颖的 UI 工作流程,允许开发人员快速将设计示例中的不同方面合并到正在进行的 UI 中。我们将此工作流程原型化为 Misty。通过与 14 名前端开发人员进行的探索性首次使用研究,我们评估了 Misty 的有效性并收集了有关此工作流程的反馈。我们的研究结果表明,Misty 的……

适用于人类数据注释的可泛化错误建模:来自行业规模搜索数据注释程序的证据

Generalizable Error Modeling for Human Data Annotation: Evidence from an Industry-Scale Search Data Annotation Program

机器学习 (ML) 和人工智能 (AI) 系统在训练和评估时严重依赖人工注释的数据。在这种情况下,一个主要的挑战是注释错误的发生,因为它们的影响会降低模型性能。本文介绍了一种预测错误模型,该模型经过训练可检测三个行业规模的 ML 应用程序(音乐流、视频流和移动应用程序)的搜索相关性注释任务中的潜在错误。利用来自广泛的搜索相关性注释程序的真实数据,我们证明可以使用... 预测错误

压缩和比较:在 ML 模型压缩实验中交互式评估效率和行为

Compress and Compare: Interactively Evaluating Efficiency and Behavior Across ML Model Compression Experiments

*平等贡献者为了在设备上部署机器学习模型,从业者使用压缩算法来缩小和加速模型,同时保持其高质量的输出。实践中压缩的一个关键方面是模型比较,包括跟踪许多压缩实验、识别模型行为的细微变化以及协商复杂的准确性-效率权衡。然而,现有的压缩工具对比较的支持很差,导致在不相交的工具中进行繁琐且有时不完整的分析。为了支持现实世界的比较工作流程,我们...

使用基于语音检索的增强功能将 ASR 与 LLM 关联化

Contextualization of ASR with LLM Using Phonetic Retrieval-Based Augmentation

大型语言模型 (LLM) 已展现出对包括音频和文本在内的多模态信号进行建模的卓越能力,允许模型根据语音输入生成口头或文本响应。然而,当输入模态为语音时,识别个人命名实体(例如电话簿中的联系人)对模型来说仍然是一个挑战。在这项工作中,我们从语音识别任务开始,并提出了一种基于检索的解决方案来将 LLM 情境化:我们首先让 LLM 在没有任何上下文的情况下检测语音中的命名实体,然后使用此命名实体作为查询来检索……

推测流:无需辅助模型的快速 LLM 推理

Speculative Streaming: Fast LLM Inference Without Auxiliary Models

推测解码是一种重要的技术,可基于辅助草稿模型的预测来加速大型目标语言模型的推理。虽然有效,但在特定于应用程序的设置中,它通常涉及对草稿和目标模型进行微调以实现高接受率。随着下游任务数量的增加,这些草稿模型会给推理系统增加相当大的复杂性。我们提出了 Speculative Streaming,这是一种单模型推测解码方法,通过将微调目标从下一个标记预测更改为...,将起草融合到目标模型中。

2024 年欧洲计算机视觉会议 (ECCV)

European Conference on Computer Vision (ECCV) 2024

Apple 将在 9 月 29 日至 10 月 4 日在意大利米兰举行的欧洲计算机视觉会议 (ECCV) 上展示新研究成果。我们很荣幸再次赞助两年一度的会议,该会议汇集了 ML 和计算机视觉领域的科学和工业研究社区。以下是 Apple 参加 ECCV 2024 的概述。

None