Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

变换不变学习和 OOD 泛化的理论保证

Transformation-Invariant Learning and Theoretical Guarantees for OOD Generalization

在实践和理论上,对具有相同训练和测试分布的学习进行了广泛的研究。然而,在分布偏移下的统计学习中,仍有许多需要理解的地方。本文重点关注分布偏移设置,其中训练和测试分布可以通过(数据)转换图的类别相关联。我们为该框架启动了一项理论研究,研究了目标转换类别已知或未知的学习场景。我们建立了学习规则和算法简化以最小化经验风险……

LLM 是否能很好地估计指令遵循中的不确定性?

Do LLMs Estimate Uncertainty Well in Instruction-Following?

这篇论文被 NeurIPS 2024 的安全生成 AI 研讨会 (SGAIW) 接受。大型语言模型 (LLM) 可以成为各个领域的有价值的个人 AI 代理,前提是它们能够精确遵循用户指令。然而,最近的研究表明 LLM 的指令遵循能力存在很大局限性,这引发了人们对其在高风险应用中的可靠性的担忧。准确评估 LLM 在遵守指示方面的不确定性对于降低部署风险至关重要。据我们所知,我们首次系统地评估了不确定性……

具有重尾的私有随机凸优化:通过简单归约实现近似最优性

Private Stochastic Convex Optimization with Heavy Tails: Near-Optimality from Simple Reductions

我们研究了具有重尾梯度的差分隐私随机凸优化 (DP-SCO) 问题,其中我们假设样本函数的 Lipschitz 常数上有 kthk^{\text{th}}kth 矩界限,而不是统一界限。我们提出了一种新的基于约简的方法,使我们能够在重尾设置中获得第一个最优利率(最多对数因子),在 (ε,δ)(\varepsilon, \delta)(ε,δ)-近似下实现误差 G2⋅1n+Gk⋅(dnε)1−1kG_2 \cdot \frac 1 {\sqrt n} + G_k \cdot (\frac{\sqrt d}{n\varepsilon})^{1 - \frac 1 k}G2​⋅n​1​+Gk​⋅(n

面向张量并行 LLM 推理的低位通信

Towards Low-Bit Communication for Tensor Parallel LLM Inference

这篇论文被 NeurIPS 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。张量并行提供了一种提高服务器大型语言模型 (LLM) 推理效率的有效方法,尽管增加了额外的通信成本。然而,随着服务器 LLM 规模不断扩大,它们将需要分布在更多设备上,从而增加了通信成本。解决这个问题的一种方法是量化,但目前的 LLM 方法往往避免量化张量并行需要传达的特征。利用……

数据集分解:使用可变序列长度课程加快 LLM 训练

Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum

大型语言模型 (LLM) 通常在由固定长度的标记序列组成的数据集上进行训练。这些数据集是通过随机连接不同长度的文档,然后将它们分块为预定目标长度的序列 (concat-and-chunk) 来创建的。最近的注意力实现掩盖了跨文档注意力,减少了标记块的有效长度。此外,由于注意力的二次成本,对长序列的训练在计算上变得难以承受。在本研究中,我们引入了数据集分解,一种新颖的可变序列长度……

压缩的 LLM 会忘记知识吗?一项具有实际意义的实验研究

Do Compressed LLMs Forget Knowledge? An Experimental Study with Practical Implications

这篇论文被 NeurIPS 2024 的机器学习和压缩研讨会接受。压缩大型语言模型 (LLM) 通常会导致性能下降,尤其是对于知识密集型任务。在这项工作中,我们深入研究了压缩如何破坏 LLM 的固有知识以及可能的补救措施。我们首先对损害的性质提出两种猜想:一是某些知识在 LLM 压缩后被遗忘(或抹去),因此需要压缩模型从具有附加参数的数据中(重新)学习;另一个假设知识是内部的……

对看不见的、逻辑推理和学位课程的概括

Generalization on the Unseen, Logic Reasoning and Degree Curriculum

本文考虑了逻辑(布尔)函数的学习,重点关注了在未见(GOTU)设置上的泛化,这是分布外泛化的典型案例。这是因为某些推理任务(例如算术/逻辑)中数据的丰富组合性质使得代表性数据采样具有挑战性,并且在 GOTU 下成功学习为“推断”或“推理”学习者提供了第一个小插图。我们研究了由 (S)GD 训练的不同网络架构在 GOTU 下的表现,并提供了理论和实验证据……

用于大型语言模型中快速推测解码的循环起草器

Recurrent Drafter for Fast Speculative Decoding in Large Language Models

我们提出了 Recurrent Drafter (ReDrafter),这是一种先进的推测解码方法,可实现大型语言模型 (LLM) 推理的最先进的加速。性能提升由三个关键方面推动:(1) 利用循环神经网络 (RNN) 作为 LLM 隐藏状态的草稿模型条件,(2) 对波束搜索结果应用动态树注意算法以消除候选序列中的重复前缀,以及 (3) 通过 LLM 中的知识提炼进行训练。ReDrafter 使用 PyTorch 将 MT-Bench 中的 Vicuna 推理速度提高了 3.5 倍……

使用空间条件增强 JEPA:稳健且高效的表示学习

Enhancing JEPAs with Spatial Conditioning: Robust and Efficient Representation Learning

这篇论文被 NeurIPS 2024 的自监督学习 - 理论与实践 (SSLTP) 研讨会接受。基于图像的联合嵌入预测架构 (IJEPA) 为使用蒙版图像建模框架进行表示学习提供了一种有吸引力的蒙版自动编码器 (MAE) 替代方案。IJEPA 通过在潜在空间而非输入空间中进行预测来驱动表示以捕获有用的语义信息。然而,IJEPA 依赖于精心设计的上下文和目标窗口来避免表示崩溃。IJEPA 中的编码器模块无法自适应地调节类型……

Duo-LLM:用于研究大型语言模型中的自适应计算的框架

Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models

这篇论文被 NeurIPS 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。大型语言模型 (LLM) 通常使用固定的计算预算逐个生成输出,导致资源利用率低下。为了解决这一缺点,混合专家 (MoE) 模型、推测解码和早期退出策略方面的最新进展利用了计算需求可能根据输入的复杂性和性质而有很大差异的洞察力。然而,确定动态执行的最佳路由模式仍然是一个开放的问题……

智能扩展:通过小型模型初始化加速大型语言模型预训练

Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization

这篇论文被 NeurIPS 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。语言模型的预训练阶段通常从随机初始化的参数开始。根据当前扩展模型的趋势,训练它们的大量参数可能非常缓慢且成本高昂。相比之下,小型语言模型的训练成本较低,但它们通常无法达到大型模型的准确性。在本文中,我们探索了一个将这两种不同机制联系起来的有趣想法:我们能否开发一种使用……初始化大型语言模型的方法

自然语言处理中的经验方法 (EMNLP) 2024

Empirical Methods in Natural Language Processing (EMNLP) 2024

Apple 将在 11 月 12 日至 16 日在佛罗里达州迈阿密举行的自然语言处理经验方法 (EMNLP) 会议上展示新研究。我们很荣幸再次赞助这次会议,它将自然语言处理和人工智能领域的科学和工业研究界聚集在一起。以下是 Apple 参加 EMNLP 2024 的概述。

使用大型语言模型进行后续对话的设备导向语音检测

Device-Directed Speech Detection for Follow-up Conversations Using Large Language Models

这篇论文被 NeurIPS Workshop 2024 的自适应基础模型 (AFM) 研讨会接受。与虚拟助手 (VA) 的后续对话使用户能够无缝地与 VA 交互,而无需使用关键字反复调用它(在第一个查询之后)。因此,从后续查询中进行准确的设备导向语音检测 (DDSD) 对于实现自然的用户体验至关重要。为此,我们探索了大型语言模型 (LLM) 的概念,并在对后续查询进行推理时对第一个查询进行建模(基于 ASR 解码的文本),通过……

使用矢量量化优化上下文语音识别以实现高效检索

Optimizing Contextual Speech Recognition Using Vector Quantization for Efficient Retrieval

神经语境偏差允许语音识别模型利用语境相关信息,从而提高转录准确性。然而,偏差机制通常基于音频和偏差条目目录之间的交叉注意模块,这意味着计算复杂性可能会对偏差目录的大小造成严重的实际限制,从而影响准确性的提高。这项工作提出了一种基于矢量量化的交叉注意评分近似值,并实现了计算和内存高效的大偏差使用……

聚合和调整自然语言提示以实现 CLIP 的下游泛化

Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP

大型预训练视觉语言模型(如 CLIP)已显示出良好的泛化能力,但在专业领域(例如卫星图像)或细粒度分类(例如汽车模型)中可能会遇到困难,因为在预训练期间看不到视觉概念或视觉概念代表性不足。即时学习提供了一个参数高效的微调框架,即使在注释数据有限的情况下,也可以使 CLIP 适应下游任务。在本文中,我们通过从自然语言提示(人工或 LLM 生成)中提取文本知识来改进即时学习,以提供……

设备上的 Llama 3.1 带有 Core ML

On Device Llama 3.1 with Core ML

许多应用程序开发人员都对在集成功能日益强大的大型语言模型 (LLM) 的设备体验上进行构建感兴趣。在 Apple 芯片上本地运行这些模型使开发人员能够利用用户设备的功能进行经济高效的推理,而无需向第三方服务器发送数据和从第三方服务器接收数据,这也有助于保护用户隐私。为了做到这一点,必须仔细优化模型以有效利用可用的系统资源,因为 LLM 通常对内存和处理能力都有很高的要求。这篇技术文章详细介绍了如何……

通过多语言知识图谱检索增强生成实现跨文化机器翻译

Towards Cross-Cultural Machine Translation with Retrieval-Augmented Generation from Multilingual Knowledge Graphs

翻译包含实体名称的文本是一项艰巨的任务,因为文化相关的参考在不同语言之间可能存在很大差异。这些差异也可能是由创译引起的,创译是一种适应过程,它涉及的不仅仅是音译和逐字翻译。在本文中,我们从两个方面解决了跨文化翻译的问题:(i) 我们引入了 XC-Translate,这是第一个大规模、手动创建的机器翻译基准,专注于包含可能具有文化细微差别的实体名称的文本,(ii) 我们提出了 KG-MT,一种新颖的端到端……

训练小规模大型语言模型的计算瓶颈

Computational Bottlenecks of Training Small-Scale Large Language Models

这篇论文被 NeurIPS Workshop 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。虽然大型语言模型 (LLM) 主导着人工智能领域,但由于消费者对成本和效率的要求,小规模大型语言模型 (SLM) 正受到关注。然而,对 SLM 的训练行为和计算要求的研究有限。在本研究中,我们通过检查各种超参数和配置(包括 GPU 类型、批量大小等)的影响,探索了训练 SLM(最多 2B 个参数)的计算瓶颈…