Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

将多重表示与多重边缘匹配间隙进行对比

Contrasting Multiple Representations with the Multi-Marginal Matching Gap

学习可通过多个(k≥3k\geq 3k≥3)视图或模态看到的复杂对象的有意义的表示是机器学习的核心任务。现有方法使用最初用于成对视图的损失,并将其扩展到 kkk 个视图,方法是实例化 12k(k−1)\tfrac12k(k-1)21​k(k−1) 损失对,或通过使用减少的嵌入,遵循一对平均\textit{一对平均}一对平均策略。我们提出了多边际匹配间隙 (M3G),这是一种借用多边际最优传输 (MM-OT) 理论工具的损失……

揭示神经网络中学习子空间的利用等级

Revealing the Utilized Rank of Subspaces of Learning in Neural Networks

在这项工作中,我们研究了神经网络的学习权重如何很好地利用可用的空间。这个概念与容量有关,但还结合了网络架构与数据集的交互。大多数学习到的权重似乎是满秩的,因此不适合低秩分解。这误导性地暗示权重正在利用它们可用的整个空间。我们提出了一种简单的数据驱动转换,将权重投影到数据和权重相互作用的子空间上。这保留了功能映射……

小心操作:使用 EMA 改进梯度手术

Careful With That Scalpel: Improving Gradient Surgery With an EMA

除了最小化单个训练损失之外,许多深度学习估计管道还依赖于辅助目标来量化和鼓励模型的理想属性(例如,在另一个数据集上的性能、稳健性、与先验的一致性)。虽然合并辅助损失的最简单方法是将其与训练损失相加作为正则化器,但最近的研究表明,可以通过混合梯度而不是简单的总和来提高性能;这被称为梯度手术。我们将问题视为一个受约束的最小化问题,其中辅助目标是……

关于计算效率高的多类校准

On Computationally Efficient Multi-Class Calibration

考虑一个多类标记问题,其中标签可以取 [k] 中的值,而预测器可以预测标签上的分布。在这项工作中,我们研究了以下基本问题:是否存在多类校准的概念,可以强有力地保证有意义的预测,并且可以在时间和样本复杂度为 k 的多项式内实现?先前的校准概念在计算效率和表达能力之间表现出权衡:它们要么受制于样本复杂度为 k 的指数,要么需要解决计算上难以解决的问题,要么给出……

回归的全预测器和凸函数的近似等级

Omnipredictors for Regression and the Approximate Rank of Convex Functions

考虑监督学习设置,其目标是学习根据分布中的点 x 预测标签 y。损失函数类 L 和假设类 C 的全能预测器是这样的预测器,对于 L 中的每个损失,其预测的预期损失小于 C 中的最佳假设。自从 [GKR+21] 的工作引入这一概念以来,在 y∈{0,1} 的二元标签设置中已经有大量工作,但对于 y∈[0,1] 可以是连续的回归设置,人们知之甚少。我们的主要概念贡献是充分的概念……

使用多样化建模单元增强基于 CTC 的语音识别

Enhancing CTC-based Speech Recognition with Diverse Modeling Units

近年来,端到端 (E2E) 自动语音识别 (ASR) 模型的发展令人瞩目,这在很大程度上要归功于 Transformer 等深度学习架构的进步。在 E2E 系统的基础上,研究人员通过使用基于音素的模型重新评分 E2E 模型的 N 个最佳假设,实现了显着的准确性提升。这提出了一个有趣的问题,即除了系统组合效应之外,改进还来自哪里。我们研究了推动这些收益的潜在机制,并提出了一种有效的联合训练方法,其中 E2E 模型进行联合训练……

叠加提示:改进和加速检索增强生成

Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation

尽管大型语言模型 (LLM) 取得了成功,但它们表现出明显的缺点,尤其是在处理长上下文时。它们的推理成本与序列长度成二次方关系,这使得在某些现实世界的文本处理应用程序中部署它们的成本很高,例如检索增强生成 (RAG)。此外,LLM 还表现出“分心现象”,提示中不相关的上下文会降低输出质量。为了解决这些缺点,我们提出了一种新颖的 RAG 提示方法,即叠加提示,可以直接应用于……

通过 N-best 重新排序实现精确知识提炼

Accurate Knowledge Distillation via N-best Reranking

我们建议利用 n-best 重新排序来增强序列级知识蒸馏 (Kim and Rush, 2016),其中我们从前 n 个最佳假设中提取学生模型训练数据的伪标签,并利用具有不同归纳偏差、目标函数或架构的多样化模型集(包括一些公开可用的大型语言模型)来挑选最高质量的假设作为标签。通过在 WMT’21 德语 ↔ 英语和中文 ↔ 英语翻译任务上的实验验证了我们提案的有效性。我们的结果表明,利用……

有限任务数据下结构化剪枝的迁移学习

Transfer Learning for Structured Pruning under Limited Task Data

这篇论文被 NeurIPS 的高效自然语言和语音处理 (ENLSP-III) 研讨会接受。大型预训练模型在资源受限的应用程序中使用存在问题。幸运的是,任务感知的结构化修剪方法提供了一种解决方案。这些方法通过以考虑最终任务的方式删除层和注意力头等结构单元来减小模型大小。然而,这些剪枝算法需要比通常可用的更多特定于任务的数据。我们提出了一个将结构化剪枝与迁移学习相结合的框架,以减少…

混洗模型中的私有向量均值估计:最佳速率需要许多消息

Private Vector Mean Estimation in the Shuffle Model: Optimal Rates Require Many Messages

我们研究了隐私混洗模型中的隐私向量均值估计问题,其中 nnn 个用户各自在 ddd 维度中都有一个单位向量。我们提出了一种新的多消息协议,该协议使用每个用户 O~(min⁡(nε2,d))\tilde{\mathcal{O}}\left(\min(n\varepsilon^2,d)\right)O~(min(nε2,d)) 条消息来实现最优误差。此外,我们表明,任何实现最优误差的(无偏)协议都要求每个用户发送 Ω(min⁡(nε2,d)/log⁡(n))\Omega(\min(n\varepsilon^2,d)/\log(n))Ω(min(nε2,d)/log(n)) 条消息,证明了我们的消息

MIA-Bench:面向多模态 LLM 评估后的更好指导

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs

我们推出了 MIA-Bench,这是一种新的基准,旨在评估多模态大型语言模型 (MLLM) 严格遵守复杂指令的能力。我们的基准由 400 个不同的图像提示对组成,每个对都经过精心设计,旨在挑战模型对分层指令的遵守情况,从而生成满足特定请求模式的准确响应。来自各种最先进的 MLLM 的评估结果揭示了性能的显著差异,突出了指令保真度方面需要改进的地方。此外,我们创建了额外的训练数据和……

2024 年国际 ACM 信息检索研究与开发会议 (SIGIR)

International ACM Conference on Research and Development in Information Retrieval (SIGIR) 2024

Apple 赞助了国际 ACM 信息检索研究与开发会议 (SIGIR),该会议将于 7 月 14 日至 18 日在华盛顿特区举行。SIGIR 是一个国际论坛,专注于展示信息检索领域的新研究。以下是 SIGIR 2024 上接受的 Apple 论文。

在轻量级 LLM 中应用 RLAIF 进行代码生成并使用 API

Applying RLAIF for Code Generation with API-usage in Lightweight LLMs

这篇论文被 ACL 2024 的自然语言推理和结构化解释研讨会接受。人工智能反馈强化学习 (RLAIF) 已在各个领域展现出巨大潜力,包括减轻 LLM 输出的危害、增强文本摘要和数学推理。本文介绍了一个 RLAIF 框架,用于提高轻量级(<1B 个参数)LLM 的代码生成能力。我们特别关注需要编写适当 API 调用的代码生成任务,这很有挑战性,因为众所周知的问题......

Transformers 推理能力有多强?局部屏障和归纳便笺簿

How Far Can Transformers Reason? The Locality Barrier and Inductive Scratchpad

Transformers 能否通过组合已建立的三段论来预测新的三段论?更一般地说,这些模型可以从头开始学习什么类型的目标?最近的研究表明,Transformers 在表达能力方面可以是图灵完备的,但这并没有解决可学习性目标。本文提出了分布局部性的概念,以捕捉常规 Transformers 何时可以有效实现弱学习,其中局部性除了标记直方图之外还测量与目标非平凡相关的所需最少标记数。如实验所示……

重新审视不可分二元分类及其在异常检测中的应用

Revisiting Non-separable Binary Classification and its Applications in Anomaly Detection

无法线性分类 XOR 激发了深度学习的大部分动力。我们重新审视这个古老的问题,并表明 XOR 的线性分类确实是可能的。我们提出了一个略有不同的范例,即等式分离,而不是在半空间之间分离数据,该范例可调整 SVM 目标以区分边际内或边际外的数据。然后,我们的分类器可以以平滑的近似值集成到神经网络管道中。从其属性来看,我们直觉地认为等式分离适用于异常检测。为了形式化这个概念,我们引入了闭包……

面向稳健评估:大型语言模型时代开放域问答数据集和指标的综合分类

Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models

自然语言处理中的开放域问答 (ODQA) 涉及构建使用大规模知识语料库回答事实问题的系统。最近的进展源于多种因素的融合,例如大规模训练数据集、深度学习技术和大型语言模型的兴起。高质量的数据集用于在现实场景中训练模型,并支持对可能看不见的数据进行系统评估。标准化指标有助于比较不同的 ODQA 系统,使研究人员能够客观地跟踪进展……

个性化语音活动检测系统的比较分析:评估现实世界的有效性

Comparative Analysis of Personalized Voice Activity Detection Systems: Assessing Real-World Effectiveness

语音活动检测 (VAD) 是语音识别、说话人识别和免提通信系统等各种应用中的关键组件。随着对个性化和情境感知技术的需求不断增长,对有效的个性化 VAD 系统的需求变得至关重要。在本文中,我们对个性化语音活动检测 (PVAD) 系统进行了比较分析,以评估其在现实世界中的有效性。我们引入了一种全面的方法来评估 PVAD 系统,结合了各种性能指标,例如帧级和……

基于一致性的极端边缘计算设备上的语音识别

Conformer-Based Speech Recognition on Extreme Edge-Computing Devices

这篇论文被 NAACL 2024 的行业轨道所接受。随着当今设备的计算能力和资源越来越强大,传统上计算密集型的自动语音识别 (ASR) 已从云端转移到设备,以更好地保护用户隐私。然而,在资源受限的设备(如智能手机、智能可穿戴设备和其他小型家庭自动化设备)上实现设备上的 ASR 仍然具有挑战性。在本文中,我们提出了一系列模型架构调整、神经网络图转换和数值优化来……