Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
我们提出了零样本度量单目深度估计的基础模型。我们的模型 Depth Pro 合成了高分辨率深度图,具有无与伦比的清晰度和高频细节。预测是度量的,具有绝对尺度,而不依赖于元数据(例如相机内在函数)的可用性。而且该模型速度很快,在标准 GPU 上 0.3 秒内即可生成 225 万像素的深度图。这些特性是由许多技术贡献实现的,包括用于密集预测的高效多尺度视觉变换器、结合了……的训练协议
Contrastive Localized Language-Image Pre-Training
对比语言-图像预训练 (CLIP) 是一种广受赞誉的方法,用于训练视觉编码器生成图像/文本表示,以促进各种应用。最近,CLIP 已被广泛用作多模态大型语言模型 (MLLM) 的视觉主干,以连接图像输入以进行语言交互。CLIP 作为视觉语言基础模型的成功依赖于在图像级别对齐网络爬取的嘈杂文本注释。然而,这样的标准可能不足以满足需要细粒度视觉表示的下游任务,尤其是……
Improving How Machine Translations Handle Grammatical Gender Ambiguity
机器翻译 (MT) 使人们能够跨越语言障碍与他人联系并参与内容。语法性别对这些系统来说是一个艰巨的挑战,因为某些语言要求对在其他语言中可能含糊不清或中性的术语具有特异性。例如,在将英语单词“nurse”翻译成西班牙语时,必须决定女性“enfermera”或男性“enfermero”是否合适。但是,特别是在缺少上下文线索时,例如在翻译单个句子时,模型无法确定哪个是正确的。这……
Misty: UI Prototyping Through Interactive Conceptual Blending
UI 原型设计通常涉及迭代和混合示例中的元素(例如屏幕截图和草图),但当前工具对合并这些示例的支持有限。受概念融合的认知过程的启发,我们引入了一种新颖的 UI 工作流程,允许开发人员快速将设计示例中的不同方面合并到正在进行的 UI 中。我们将此工作流程原型化为 Misty。通过与 14 名前端开发人员进行的探索性首次使用研究,我们评估了 Misty 的有效性并收集了有关此工作流程的反馈。我们的研究结果表明,Misty 的……
机器学习 (ML) 和人工智能 (AI) 系统在训练和评估时严重依赖人工注释的数据。在这种情况下,一个主要的挑战是注释错误的发生,因为它们的影响会降低模型性能。本文介绍了一种预测错误模型,该模型经过训练可检测三个行业规模的 ML 应用程序(音乐流、视频流和移动应用程序)的搜索相关性注释任务中的潜在错误。利用来自广泛的搜索相关性注释程序的真实数据,我们证明可以使用... 预测错误
*平等贡献者为了在设备上部署机器学习模型,从业者使用压缩算法来缩小和加速模型,同时保持其高质量的输出。实践中压缩的一个关键方面是模型比较,包括跟踪许多压缩实验、识别模型行为的细微变化以及协商复杂的准确性-效率权衡。然而,现有的压缩工具对比较的支持很差,导致在不相交的工具中进行繁琐且有时不完整的分析。为了支持现实世界的比较工作流程,我们...
Contextualization of ASR with LLM Using Phonetic Retrieval-Based Augmentation
大型语言模型 (LLM) 已展现出对包括音频和文本在内的多模态信号进行建模的卓越能力,允许模型根据语音输入生成口头或文本响应。然而,当输入模态为语音时,识别个人命名实体(例如电话簿中的联系人)对模型来说仍然是一个挑战。在这项工作中,我们从语音识别任务开始,并提出了一种基于检索的解决方案来将 LLM 情境化:我们首先让 LLM 在没有任何上下文的情况下检测语音中的命名实体,然后使用此命名实体作为查询来检索……
Speculative Streaming: Fast LLM Inference Without Auxiliary Models
推测解码是一种重要的技术,可基于辅助草稿模型的预测来加速大型目标语言模型的推理。虽然有效,但在特定于应用程序的设置中,它通常涉及对草稿和目标模型进行微调以实现高接受率。随着下游任务数量的增加,这些草稿模型会给推理系统增加相当大的复杂性。我们提出了 Speculative Streaming,这是一种单模型推测解码方法,通过将微调目标从下一个标记预测更改为...,将起草融合到目标模型中。
European Conference on Computer Vision (ECCV) 2024
Apple 将在 9 月 29 日至 10 月 4 日在意大利米兰举行的欧洲计算机视觉会议 (ECCV) 上展示新研究成果。我们很荣幸再次赞助两年一度的会议,该会议汇集了 ML 和计算机视觉领域的科学和工业研究社区。以下是 Apple 参加 ECCV 2024 的概述。
Automated Code Fix Suggestions for Accessibility Issues in Mobile Apps
可访问性对于包容性应用程序可用性至关重要,但由于缺乏意识、专业知识和工具不足,开发人员经常难以识别和修复应用程序可访问性问题。当前的可访问性测试工具可以识别可访问性问题,但可能并不总是提供如何解决这些问题的指导。我们推出了 FixAlly,这是一种自动化工具,旨在针对自动可访问性扫描器检测到的可访问性问题建议源代码修复。FixAlly 采用多代理 LLM 架构来生成修复策略、在源代码中定位问题并提出代码……
Retrieval-Augmented Correction of Named Entity Speech Recognition Errors
近年来,端到端自动语音识别 (ASR) 系统已证明其具有出色的准确性和性能,但这些系统对于训练数据中不经常出现的实体名称仍然具有显着的错误率。随着端到端 ASR 系统的兴起,大型语言模型 (LLM) 已被证明是各种自然语言处理 (NLP) 任务的多功能工具。在具有相关知识数据库的 NLP 任务中,检索增强生成 (RAG) 与 LLM 一起使用时取得了令人印象深刻的结果。在这项工作中,我们提出……
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
多模态大型语言模型 (MLLM) 的最新进展值得关注,然而,这些通用领域的 MLLM 往往在理解用户界面 (UI) 屏幕和与用户界面 (UI) 屏幕有效交互的能力方面存在不足。在本文中,我们介绍了 Ferret-UI,这是一种专为增强对移动 UI 屏幕的理解而量身定制的新型 MLLM,具有引用、基础和推理功能。鉴于 UI 屏幕通常具有比自然图像更长的纵横比,并且包含较小的感兴趣对象(例如图标、文本),我们在 Ferret 之上加入了“任何分辨率”以……
UI-JEPA: Towards Active Perception of User Intent Through Onscreen User Activity
从一系列用户界面 (UI) 操作中生成用户意图是全面理解 UI 的核心挑战。多模态大型语言模型 (MLLM) 的最新进展已导致该领域取得了实质性进展,但它们对大量模型参数、计算能力和高延迟的要求使其不适用于需要轻量级、低延迟或高度隐私的设备解决方案的场景。此外,缺乏高质量的数据集阻碍了此类轻量级模型的开发。为了应对这些挑战,我们提出了 UI-JEPA,一种……
CTRLorALTer: Conditional LoRAdapter for Efficient Zero-Shot Control & Altering of T2I Models
文本到图像生成模型已成为一种突出且强大的工具,擅长生成高分辨率逼真的图像。然而,引导这些模型的生成过程考虑反映风格和/或结构信息的详细条件形式仍然是一个悬而未决的问题。在本文中,我们提出了 LoRAdapter,这是一种使用新颖的条件 LoRA 块在同一公式下统一风格和结构条件的方法,可实现零样本控制。 LoRAdapter 是一种高效、强大且与架构无关的条件方法……
Optimizing Byte-level Representation for End-to-End ASR
在本文中,我们提出了一种优化端到端 (E2E) 自动语音识别 (ASR) 字节级表示的算法。当支持的语言的字符集很大时,大型多语言 ASR 系统通常会使用字节级表示。字节级表示的紧凑性和通用性使 ASR 模型可以使用较小的输出,从而提供更大的灵活性。UTF-8 是最常用的字节级表示,已成功应用于 ASR。然而,它不是为 ASR 或任何机器学习任务设计的。通过使用……
Apple Workshop on Privacy-Preserving Machine Learning 2024
在 Apple,我们认为隐私是一项基本人权。这也是我们的核心价值观之一,影响着我们的研究以及 Apple 产品和服务的设计。了解人们如何使用他们的设备通常有助于改善用户体验。但是,访问提供此类见解的数据(例如,用户在键盘上输入的内容以及他们访问的网站)可能会损害用户隐私。我们开发了系统架构,通过利用机器学习 (ML) 的进步(例如私有联邦学习 (PFL))结合……来实现大规模学习。
Positional Description for Numerical Normalization
我们提出了一种针对数字序列量身定制的位置描述方案 (PDS),集成了每个数字的占位符值信息。鉴于子词标记算法的结构限制,语言模型在处理数字任务时遇到了关键的文本规范化 (TN) 挑战。我们的模式通过直接的预处理解决了这一挑战,保留了模型架构,同时显着简化了数字规范化,使问题变得易于处理。这简化了任务并促进了更紧凑的生产就绪模型能够……
Classifier-Free Guidance Is a Predictor-Corrector
我们研究了无分类器指导 (CFG) 的不合理有效性。CFG 是文本到图像扩散模型的条件采样的主要方法,但与扩散的其他方面不同,它的理论基础仍然不稳定。在本文中,我们通过展示 CFG 与 DDPM 和 DDIM 的交互方式不同,并且 CFG 的采样器都不会生成伽马驱动分布,从而反驳了常见的误解。然后,我们通过展示它是一种在去噪和锐化之间交替的预测校正 (PC) 方法来阐明 CFG 的行为,我们称之为……