Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

通过功能叙述对时间序列进行可推广的自回归建模

Generalizable Autoregressive Modeling of Time Series Through Functional Narratives

时间序列数据本质上是时间的函数,但当前的 Transformer 通常通过将时间序列建模为时间段的简单连接来学习时间序列,而忽略了它们的功能属性。在这项工作中,我们为 Transformer 提出了一个新的目标,即通过将时间序列重新解释为时间函数来学习时间序列。我们通过在功能空间中构建不同强度的退化算子来构建时间序列的替代序列,从而创建原始样本的增强变体,这些变体被抽象或简化到不同的程度。基于新的...

渐进熵最优传输求解器

Progressive Entropic Optimal Transport Solvers

最优传输 (OT) 通过提供理论和计算工具来重新调整数据集,对机器学习产生了深远的影响。在这种情况下,给定 Rd\mathbb{R}^dRd 中大小为 nnn 和 mmm 的两个大点云,熵 OT (EOT) 求解器已成为解决 Kantorovich 问题并输出 n×mn\times mn×m 耦合矩阵或解决 Monge 问题并学习矢量值前推图的最可靠工具。尽管 EOT 耦合/映射的稳健性使其成为实际应用中的首选,但由于小问题,EOT 求解器仍然难以调整……

从单个演示中实现基于视觉的手势定制

Vision-Based Hand Gesture Customization from a Single Demonstration

手势识别正成为一种更普遍的人机交互模式,尤其是随着摄像头在日常设备中的普及。尽管该领域不断取得进展,但手势定制往往未得到充分探索。定制至关重要,因为它使用户能够定义和演示更自然、更难忘、更易于理解的手势。然而,定制需要有效利用用户提供的数据。我们介绍了一种方法,使用户能够通过一次演示使用单目摄像头轻松设计定制手势。我们采用变压器和……

GSM-Symbolic:了解大型语言模型中数学推理的局限性

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

大型语言模型 (LLM) 的最新进展引发了人们对其形式推理能力的兴趣,尤其是在数学方面。GSM8K 基准被广泛用于评估模型在小学水平问题上的数学推理能力。虽然近年来 LLM 在 GSM8K 上的表现显着提高,但它们的数学推理能力是否真正进步仍不清楚,这引发了人们对所报告指标可靠性的质疑。为了解决这些问题,我们对几个 SOTA 开放和封闭模型进行了大规模研究。为了……

何时需要进行多校准后处理?

When is Multicalibration Post-Processing Necessary?

校准是预测因子的一个经过充分研究的属性,可保证有意义的不确定性估计。多重校准是一个相关概念——源于算法公平性——它要求在可能复杂且重叠的受保护亚群集合(例如按种族、种族或收入定义的群体)上同时校准预测因子。我们进行了首次全面研究,评估了从简单决策树到 90 的模型在广泛的表格、图像和语言数据集上的多重校准后处理的实用性……

对比本地化语言图像预训练

Contrastive Localized Language-Image Pre-Training

对比语言-图像预训练 (CLIP) 是一种广受赞誉的方法,用于训练视觉编码器生成图像/文本表示,以促进各种应用。最近,CLIP 已被广泛用作多模态大型语言模型 (MLLM) 的视觉主干,以连接图像输入以进行语言交互。CLIP 作为视觉语言基础模型的成功依赖于在图像级别对齐网络爬取的嘈杂文本注释。然而,这样的标准可能不足以满足需要细粒度视觉表示的下游任务,尤其是……

关于直接偏好优化引起的隐式奖励模型的有限泛化能力

On the Limited Generalization Capability of the Implicit Reward Model Induced by Direct Preference Optimization

从人类反馈中进行强化学习 (RLHF) 是一种将语言模型与人类偏好保持一致的有效方法。RLHF 的核心是学习用于对人类偏好进行评分的奖励函数。学习奖励模型的两种主要方法是 1) 训练显式奖励模型(如 RLHF)和 2) 使用通过直接偏好优化 (DPO) 等方法从偏好数据中学习的隐式奖励。先前的研究表明,DPO 的隐性奖励模型可以近似训练有素的奖励模型,但尚不清楚 DPO 在多大程度上可以推广到分布……

Depth Pro:不到一秒即可实现清晰的单目度量深度

Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

我们提出了零样本度量单目深度估计的基础模型。我们的模型 Depth Pro 合成了高分辨率深度图,具有无与伦比的清晰度和高频细节。预测是度量的,具有绝对尺度,而不依赖于元数据(例如相机内在函数)的可用性。而且该模型速度很快,在标准 GPU 上 0.3 秒内即可生成 225 万像素的深度图。这些特性是由许多技术贡献实现的,包括用于密集预测的高效多尺度视觉变换器、结合了……的训练协议

改进机器翻译处理语法性别歧义的方式

Improving How Machine Translations Handle Grammatical Gender Ambiguity

机器翻译 (MT) 使人们能够跨越语言障碍与他人联系并参与内容。语法性别对这些系统来说是一个艰巨的挑战,因为某些语言要求对在其他语言中可能含糊不清或中性的术语具有特异性。例如,在将英语单词“nurse”翻译成西班牙语时,必须决定女性“enfermera”或男性“enfermero”是否合适。但是,特别是在缺少上下文线索时,例如在翻译单个句子时,模型无法确定哪个是正确的。这……

Misty:通过交互式概念融合进行 UI 原型设计

Misty: UI Prototyping Through Interactive Conceptual Blending

UI 原型设计通常涉及迭代和混合示例中的元素(例如屏幕截图和草图),但当前工具对合并这些示例的支持有限。受概念融合的认知过程的启发,我们引入了一种新颖的 UI 工作流程,允许开发人员快速将设计示例中的不同方面合并到正在进行的 UI 中。我们将此工作流程原型化为 Misty。通过与 14 名前端开发人员进行的探索性首次使用研究,我们评估了 Misty 的有效性并收集了有关此工作流程的反馈。我们的研究结果表明,Misty 的……

适用于人类数据注释的可泛化错误建模:来自行业规模搜索数据注释程序的证据

Generalizable Error Modeling for Human Data Annotation: Evidence from an Industry-Scale Search Data Annotation Program

机器学习 (ML) 和人工智能 (AI) 系统在训练和评估时严重依赖人工注释的数据。在这种情况下,一个主要的挑战是注释错误的发生,因为它们的影响会降低模型性能。本文介绍了一种预测错误模型,该模型经过训练可检测三个行业规模的 ML 应用程序(音乐流、视频流和移动应用程序)的搜索相关性注释任务中的潜在错误。利用来自广泛的搜索相关性注释程序的真实数据,我们证明可以使用... 预测错误

压缩和比较:在 ML 模型压缩实验中交互式评估效率和行为

Compress and Compare: Interactively Evaluating Efficiency and Behavior Across ML Model Compression Experiments

*平等贡献者为了在设备上部署机器学习模型,从业者使用压缩算法来缩小和加速模型,同时保持其高质量的输出。实践中压缩的一个关键方面是模型比较,包括跟踪许多压缩实验、识别模型行为的细微变化以及协商复杂的准确性-效率权衡。然而,现有的压缩工具对比较的支持很差,导致在不相交的工具中进行繁琐且有时不完整的分析。为了支持现实世界的比较工作流程,我们...

使用基于语音检索的增强功能将 ASR 与 LLM 关联化

Contextualization of ASR with LLM Using Phonetic Retrieval-Based Augmentation

大型语言模型 (LLM) 已展现出对包括音频和文本在内的多模态信号进行建模的卓越能力,允许模型根据语音输入生成口头或文本响应。然而,当输入模态为语音时,识别个人命名实体(例如电话簿中的联系人)对模型来说仍然是一个挑战。在这项工作中,我们从语音识别任务开始,并提出了一种基于检索的解决方案来将 LLM 情境化:我们首先让 LLM 在没有任何上下文的情况下检测语音中的命名实体,然后使用此命名实体作为查询来检索……

推测流:无需辅助模型的快速 LLM 推理

Speculative Streaming: Fast LLM Inference Without Auxiliary Models

推测解码是一种重要的技术,可基于辅助草稿模型的预测来加速大型目标语言模型的推理。虽然有效,但在特定于应用程序的设置中,它通常涉及对草稿和目标模型进行微调以实现高接受率。随着下游任务数量的增加,这些草稿模型会给推理系统增加相当大的复杂性。我们提出了 Speculative Streaming,这是一种单模型推测解码方法,通过将微调目标从下一个标记预测更改为...,将起草融合到目标模型中。

2024 年欧洲计算机视觉会议 (ECCV)

European Conference on Computer Vision (ECCV) 2024

Apple 将在 9 月 29 日至 10 月 4 日在意大利米兰举行的欧洲计算机视觉会议 (ECCV) 上展示新研究成果。我们很荣幸再次赞助两年一度的会议,该会议汇集了 ML 和计算机视觉领域的科学和工业研究社区。以下是 Apple 参加 ECCV 2024 的概述。

针对移动应用程序中可访问性问题的自动代码修复建议

Automated Code Fix Suggestions for Accessibility Issues in Mobile Apps

可访问性对于包容性应用程序可用性至关重要,但由于缺乏意识、专业知识和工具不足,开发人员经常难以识别和修复应用程序可访问性问题。当前的可访问性测试工具可以识别可访问性问题,但可能并不总是提供如何解决这些问题的指导。我们推出了 FixAlly,这是一种自动化工具,旨在针对自动可访问性扫描器检测到的可访问性问题建议源代码修复。FixAlly 采用多代理 LLM 架构来生成修复策略、在源代码中定位问题并提出代码……

检索增强校正命名实体语音识别错误

Retrieval-Augmented Correction of Named Entity Speech Recognition Errors

近年来,端到端自动语音识别 (ASR) 系统已证明其具有出色的准确性和性能,但这些系统对于训练数据中不经常出现的实体名称仍然具有显着的错误率。随着端到端 ASR 系统的兴起,大型语言模型 (LLM) 已被证明是各种自然语言处理 (NLP) 任务的多功能工具。在具有相关知识数据库的 NLP 任务中,检索增强生成 (RAG) 与 LLM 一起使用时取得了令人印象深刻的结果。在这项工作中,我们提出……

Ferret-UI:基于多模式法学硕士 (LLM) 的扎实移动 UI 理解

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

多模态大型语言模型 (MLLM) 的最新进展值得关注,然而,这些通用领域的 MLLM 往往在理解用户界面 (UI) 屏幕和与用户界面 (UI) 屏幕有效交互的能力方面存在不足。在本文中,我们介绍了 Ferret-UI,这是一种专为增强对移动 UI 屏幕的理解而量身定制的新型 MLLM,具有引用、基础和推理功能。鉴于 UI 屏幕通常具有比自然图像更长的纵横比,并且包含较小的感兴趣对象(例如图标、文本),我们在 Ferret 之上加入了“任何分辨率”以……