Generalizable Autoregressive Modeling of Time Series Through Functional Narratives
时间序列数据本质上是时间的函数,但当前的 Transformer 通常通过将时间序列建模为时间段的简单连接来学习时间序列,而忽略了它们的功能属性。在这项工作中,我们为 Transformer 提出了一个新的目标,即通过将时间序列重新解释为时间函数来学习时间序列。我们通过在功能空间中构建不同强度的退化算子来构建时间序列的替代序列,从而创建原始样本的增强变体,这些变体被抽象或简化到不同的程度。基于新的...
Progressive Entropic Optimal Transport Solvers
最优传输 (OT) 通过提供理论和计算工具来重新调整数据集,对机器学习产生了深远的影响。在这种情况下,给定 Rd\mathbb{R}^dRd 中大小为 nnn 和 mmm 的两个大点云,熵 OT (EOT) 求解器已成为解决 Kantorovich 问题并输出 n×mn\times mn×m 耦合矩阵或解决 Monge 问题并学习矢量值前推图的最可靠工具。尽管 EOT 耦合/映射的稳健性使其成为实际应用中的首选,但由于小问题,EOT 求解器仍然难以调整……
Vision-Based Hand Gesture Customization from a Single Demonstration
手势识别正成为一种更普遍的人机交互模式,尤其是随着摄像头在日常设备中的普及。尽管该领域不断取得进展,但手势定制往往未得到充分探索。定制至关重要,因为它使用户能够定义和演示更自然、更难忘、更易于理解的手势。然而,定制需要有效利用用户提供的数据。我们介绍了一种方法,使用户能够通过一次演示使用单目摄像头轻松设计定制手势。我们采用变压器和……
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
大型语言模型 (LLM) 的最新进展引发了人们对其形式推理能力的兴趣,尤其是在数学方面。GSM8K 基准被广泛用于评估模型在小学水平问题上的数学推理能力。虽然近年来 LLM 在 GSM8K 上的表现显着提高,但它们的数学推理能力是否真正进步仍不清楚,这引发了人们对所报告指标可靠性的质疑。为了解决这些问题,我们对几个 SOTA 开放和封闭模型进行了大规模研究。为了……
When is Multicalibration Post-Processing Necessary?
校准是预测因子的一个经过充分研究的属性,可保证有意义的不确定性估计。多重校准是一个相关概念——源于算法公平性——它要求在可能复杂且重叠的受保护亚群集合(例如按种族、种族或收入定义的群体)上同时校准预测因子。我们进行了首次全面研究,评估了从简单决策树到 90 的模型在广泛的表格、图像和语言数据集上的多重校准后处理的实用性……
Contrastive Localized Language-Image Pre-Training
对比语言-图像预训练 (CLIP) 是一种广受赞誉的方法,用于训练视觉编码器生成图像/文本表示,以促进各种应用。最近,CLIP 已被广泛用作多模态大型语言模型 (MLLM) 的视觉主干,以连接图像输入以进行语言交互。CLIP 作为视觉语言基础模型的成功依赖于在图像级别对齐网络爬取的嘈杂文本注释。然而,这样的标准可能不足以满足需要细粒度视觉表示的下游任务,尤其是……
从人类反馈中进行强化学习 (RLHF) 是一种将语言模型与人类偏好保持一致的有效方法。RLHF 的核心是学习用于对人类偏好进行评分的奖励函数。学习奖励模型的两种主要方法是 1) 训练显式奖励模型(如 RLHF)和 2) 使用通过直接偏好优化 (DPO) 等方法从偏好数据中学习的隐式奖励。先前的研究表明,DPO 的隐性奖励模型可以近似训练有素的奖励模型,但尚不清楚 DPO 在多大程度上可以推广到分布……
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
我们提出了零样本度量单目深度估计的基础模型。我们的模型 Depth Pro 合成了高分辨率深度图,具有无与伦比的清晰度和高频细节。预测是度量的,具有绝对尺度,而不依赖于元数据(例如相机内在函数)的可用性。而且该模型速度很快,在标准 GPU 上 0.3 秒内即可生成 225 万像素的深度图。这些特性是由许多技术贡献实现的,包括用于密集预测的高效多尺度视觉变换器、结合了……的训练协议
Improving How Machine Translations Handle Grammatical Gender Ambiguity
机器翻译 (MT) 使人们能够跨越语言障碍与他人联系并参与内容。语法性别对这些系统来说是一个艰巨的挑战,因为某些语言要求对在其他语言中可能含糊不清或中性的术语具有特异性。例如,在将英语单词“nurse”翻译成西班牙语时,必须决定女性“enfermera”或男性“enfermero”是否合适。但是,特别是在缺少上下文线索时,例如在翻译单个句子时,模型无法确定哪个是正确的。这……
Misty: UI Prototyping Through Interactive Conceptual Blending
UI 原型设计通常涉及迭代和混合示例中的元素(例如屏幕截图和草图),但当前工具对合并这些示例的支持有限。受概念融合的认知过程的启发,我们引入了一种新颖的 UI 工作流程,允许开发人员快速将设计示例中的不同方面合并到正在进行的 UI 中。我们将此工作流程原型化为 Misty。通过与 14 名前端开发人员进行的探索性首次使用研究,我们评估了 Misty 的有效性并收集了有关此工作流程的反馈。我们的研究结果表明,Misty 的……
机器学习 (ML) 和人工智能 (AI) 系统在训练和评估时严重依赖人工注释的数据。在这种情况下,一个主要的挑战是注释错误的发生,因为它们的影响会降低模型性能。本文介绍了一种预测错误模型,该模型经过训练可检测三个行业规模的 ML 应用程序(音乐流、视频流和移动应用程序)的搜索相关性注释任务中的潜在错误。利用来自广泛的搜索相关性注释程序的真实数据,我们证明可以使用... 预测错误
*平等贡献者为了在设备上部署机器学习模型,从业者使用压缩算法来缩小和加速模型,同时保持其高质量的输出。实践中压缩的一个关键方面是模型比较,包括跟踪许多压缩实验、识别模型行为的细微变化以及协商复杂的准确性-效率权衡。然而,现有的压缩工具对比较的支持很差,导致在不相交的工具中进行繁琐且有时不完整的分析。为了支持现实世界的比较工作流程,我们...
Contextualization of ASR with LLM Using Phonetic Retrieval-Based Augmentation
大型语言模型 (LLM) 已展现出对包括音频和文本在内的多模态信号进行建模的卓越能力,允许模型根据语音输入生成口头或文本响应。然而,当输入模态为语音时,识别个人命名实体(例如电话簿中的联系人)对模型来说仍然是一个挑战。在这项工作中,我们从语音识别任务开始,并提出了一种基于检索的解决方案来将 LLM 情境化:我们首先让 LLM 在没有任何上下文的情况下检测语音中的命名实体,然后使用此命名实体作为查询来检索……
Speculative Streaming: Fast LLM Inference Without Auxiliary Models
推测解码是一种重要的技术,可基于辅助草稿模型的预测来加速大型目标语言模型的推理。虽然有效,但在特定于应用程序的设置中,它通常涉及对草稿和目标模型进行微调以实现高接受率。随着下游任务数量的增加,这些草稿模型会给推理系统增加相当大的复杂性。我们提出了 Speculative Streaming,这是一种单模型推测解码方法,通过将微调目标从下一个标记预测更改为...,将起草融合到目标模型中。
European Conference on Computer Vision (ECCV) 2024
Apple 将在 9 月 29 日至 10 月 4 日在意大利米兰举行的欧洲计算机视觉会议 (ECCV) 上展示新研究成果。我们很荣幸再次赞助两年一度的会议,该会议汇集了 ML 和计算机视觉领域的科学和工业研究社区。以下是 Apple 参加 ECCV 2024 的概述。
Automated Code Fix Suggestions for Accessibility Issues in Mobile Apps
可访问性对于包容性应用程序可用性至关重要,但由于缺乏意识、专业知识和工具不足,开发人员经常难以识别和修复应用程序可访问性问题。当前的可访问性测试工具可以识别可访问性问题,但可能并不总是提供如何解决这些问题的指导。我们推出了 FixAlly,这是一种自动化工具,旨在针对自动可访问性扫描器检测到的可访问性问题建议源代码修复。FixAlly 采用多代理 LLM 架构来生成修复策略、在源代码中定位问题并提出代码……
Retrieval-Augmented Correction of Named Entity Speech Recognition Errors
近年来,端到端自动语音识别 (ASR) 系统已证明其具有出色的准确性和性能,但这些系统对于训练数据中不经常出现的实体名称仍然具有显着的错误率。随着端到端 ASR 系统的兴起,大型语言模型 (LLM) 已被证明是各种自然语言处理 (NLP) 任务的多功能工具。在具有相关知识数据库的 NLP 任务中,检索增强生成 (RAG) 与 LLM 一起使用时取得了令人印象深刻的结果。在这项工作中,我们提出……
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
多模态大型语言模型 (MLLM) 的最新进展值得关注,然而,这些通用领域的 MLLM 往往在理解用户界面 (UI) 屏幕和与用户界面 (UI) 屏幕有效交互的能力方面存在不足。在本文中,我们介绍了 Ferret-UI,这是一种专为增强对移动 UI 屏幕的理解而量身定制的新型 MLLM,具有引用、基础和推理功能。鉴于 UI 屏幕通常具有比自然图像更长的纵横比,并且包含较小的感兴趣对象(例如图标、文本),我们在 Ferret 之上加入了“任何分辨率”以……