MUSCLE: A Model Update Strategy for Compatible LLM Evolution
大型语言模型 (LLM) 会定期更新以提高性能,通常是通过更改数据或架构来实现的。在更新过程中,开发人员通常优先考虑改进整体性能指标,而较少关注与早期模型版本的兼容性。从一个模型版本到下一个模型版本,实例级性能下降(实例回归)可能会干扰用户对特定语言模型功能的心理模型。用户每次更新都必须调整他们的心理模型,这可能会导致不满,尤其是当……
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities
*平等贡献者当前的多模态和多任务基础模型(如 4M 或 UnifiedIO)显示出了良好的结果,但在实践中,它们接受不同输入和执行不同任务的开箱即用能力受到它们所训练的模态和任务数量(通常相当少)的限制。在本文中,我们通过在数十种高度多样化的模态上对其进行训练以及在大规模多模态数据集和文本语料库上进行联合训练,显著扩展了 4M 的功能。这包括对几种语义和几何模态、特征图的训练......
Scalable Private Search with Wally
本文介绍了 Wally,这是一个支持对大型数据库进行高效语义和关键字搜索查询的隐私搜索系统。当有足够多的客户端进行查询时,Wally 的性能明显优于以前的系统。在以前的隐私搜索系统中,对于每个客户端查询,服务器必须对每个数据库条目执行至少一次昂贵的加密操作。因此,性能会随着数据库中条目的数量而成比例下降。在 Wally 中,我们消除了这一限制。具体来说,对于每个查询,服务器都会执行加密……
CAMPHOR: Collaborative Agents for Multi-Input Planning and High-Order Reasoning On Device
虽然服务器端大型语言模型 (LLM) 在工具集成和复杂推理方面表现出色,但直接在设备上部署小型语言模型 (SLM) 带来了改善延迟和隐私的机会,但也带来了准确性和内存方面的独特挑战。我们推出了 CAMPHOR,这是一种创新的设备 SLM 多代理框架,旨在处理多个用户输入并在本地推理个人背景,确保隐私得到维护。 CAMPHOR 采用分层架构,其中高阶推理代理分解复杂任务并协调专家……
Progressive Entropic Optimal Transport Solvers
最优传输 (OT) 通过提供理论和计算工具来重新调整数据集,对机器学习产生了深远的影响。在这种情况下,给定 Rd\mathbb{R}^dRd 中大小为 nnn 和 mmm 的两个大点云,熵 OT (EOT) 求解器已成为解决 Kantorovich 问题并输出 n×mn\times mn×m 耦合矩阵或解决 Monge 问题并学习矢量值前推图的最可靠工具。尽管 EOT 耦合/映射的稳健性使其成为实际应用中的首选,但由于小问题,EOT 求解器仍然难以调整……
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
大型语言模型 (LLM) 的最新进展引发了人们对其形式推理能力的兴趣,尤其是在数学方面。GSM8K 基准被广泛用于评估模型在小学水平问题上的数学推理能力。虽然近年来 LLM 在 GSM8K 上的表现显着提高,但它们的数学推理能力是否真正进步仍不清楚,这引发了人们对所报告指标可靠性的质疑。为了解决这些问题,我们对几个 SOTA 开放和封闭模型进行了大规模研究。为了……
Contrastive Localized Language-Image Pre-Training
对比语言-图像预训练 (CLIP) 是一种广受赞誉的方法,用于训练视觉编码器生成图像/文本表示,以促进各种应用。最近,CLIP 已被广泛用作多模态大型语言模型 (MLLM) 的视觉主干,以连接图像输入以进行语言交互。CLIP 作为视觉语言基础模型的成功依赖于在图像级别对齐网络爬取的嘈杂文本注释。然而,这样的标准可能不足以满足需要细粒度视觉表示的下游任务,尤其是……
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
我们提出了零样本度量单目深度估计的基础模型。我们的模型 Depth Pro 合成了高分辨率深度图,具有无与伦比的清晰度和高频细节。预测是度量的,具有绝对尺度,而不依赖于元数据(例如相机内在函数)的可用性。而且该模型速度很快,在标准 GPU 上 0.3 秒内即可生成 225 万像素的深度图。这些特性是由许多技术贡献实现的,包括用于密集预测的高效多尺度视觉变换器、结合了……的训练协议
When is Multicalibration Post-Processing Necessary?
校准是预测因子的一个经过充分研究的属性,可保证有意义的不确定性估计。多重校准是一个相关概念——源于算法公平性——它要求在可能复杂且重叠的受保护亚群集合(例如按种族、种族或收入定义的群体)上同时校准预测因子。我们进行了首次全面研究,评估了从简单决策树到 90 的模型在广泛的表格、图像和语言数据集上的多重校准后处理的实用性……
从人类反馈中进行强化学习 (RLHF) 是一种将语言模型与人类偏好保持一致的有效方法。RLHF 的核心是学习用于对人类偏好进行评分的奖励函数。学习奖励模型的两种主要方法是 1) 训练显式奖励模型(如 RLHF)和 2) 使用通过直接偏好优化 (DPO) 等方法从偏好数据中学习的隐式奖励。先前的研究表明,DPO 的隐性奖励模型可以近似训练有素的奖励模型,但尚不清楚 DPO 在多大程度上可以推广到分布……
Improving How Machine Translations Handle Grammatical Gender Ambiguity
机器翻译 (MT) 使人们能够跨越语言障碍与他人联系并参与内容。语法性别对这些系统来说是一个艰巨的挑战,因为某些语言要求对在其他语言中可能含糊不清或中性的术语具有特异性。例如,在将英语单词“nurse”翻译成西班牙语时,必须决定女性“enfermera”或男性“enfermero”是否合适。但是,特别是在缺少上下文线索时,例如在翻译单个句子时,模型无法确定哪个是正确的。这……
Misty: UI Prototyping Through Interactive Conceptual Blending
UI 原型设计通常涉及迭代和混合示例中的元素(例如屏幕截图和草图),但当前工具对合并这些示例的支持有限。受概念融合的认知过程的启发,我们引入了一种新颖的 UI 工作流程,允许开发人员快速将设计示例中的不同方面合并到正在进行的 UI 中。我们将此工作流程原型化为 Misty。通过与 14 名前端开发人员进行的探索性首次使用研究,我们评估了 Misty 的有效性并收集了有关此工作流程的反馈。我们的研究结果表明,Misty 的……
机器学习 (ML) 和人工智能 (AI) 系统在训练和评估时严重依赖人工注释的数据。在这种情况下,一个主要的挑战是注释错误的发生,因为它们的影响会降低模型性能。本文介绍了一种预测错误模型,该模型经过训练可检测三个行业规模的 ML 应用程序(音乐流、视频流和移动应用程序)的搜索相关性注释任务中的潜在错误。利用来自广泛的搜索相关性注释程序的真实数据,我们证明可以使用... 预测错误
*平等贡献者为了在设备上部署机器学习模型,从业者使用压缩算法来缩小和加速模型,同时保持其高质量的输出。实践中压缩的一个关键方面是模型比较,包括跟踪许多压缩实验、识别模型行为的细微变化以及协商复杂的准确性-效率权衡。然而,现有的压缩工具对比较的支持很差,导致在不相交的工具中进行繁琐且有时不完整的分析。为了支持现实世界的比较工作流程,我们...
Contextualization of ASR with LLM Using Phonetic Retrieval-Based Augmentation
大型语言模型 (LLM) 已展现出对包括音频和文本在内的多模态信号进行建模的卓越能力,允许模型根据语音输入生成口头或文本响应。然而,当输入模态为语音时,识别个人命名实体(例如电话簿中的联系人)对模型来说仍然是一个挑战。在这项工作中,我们从语音识别任务开始,并提出了一种基于检索的解决方案来将 LLM 情境化:我们首先让 LLM 在没有任何上下文的情况下检测语音中的命名实体,然后使用此命名实体作为查询来检索……
Speculative Streaming: Fast LLM Inference Without Auxiliary Models
推测解码是一种重要的技术,可基于辅助草稿模型的预测来加速大型目标语言模型的推理。虽然有效,但在特定于应用程序的设置中,它通常涉及对草稿和目标模型进行微调以实现高接受率。随着下游任务数量的增加,这些草稿模型会给推理系统增加相当大的复杂性。我们提出了 Speculative Streaming,这是一种单模型推测解码方法,通过将微调目标从下一个标记预测更改为...,将起草融合到目标模型中。
European Conference on Computer Vision (ECCV) 2024
Apple 将在 9 月 29 日至 10 月 4 日在意大利米兰举行的欧洲计算机视觉会议 (ECCV) 上展示新研究成果。我们很荣幸再次赞助两年一度的会议,该会议汇集了 ML 和计算机视觉领域的科学和工业研究社区。以下是 Apple 参加 ECCV 2024 的概述。