Towards Low-Bit Communication for Tensor Parallel LLM Inference
这篇论文被 NeurIPS 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。张量并行提供了一种提高服务器大型语言模型 (LLM) 推理效率的有效方法,尽管增加了额外的通信成本。然而,随着服务器 LLM 规模不断扩大,它们将需要分布在更多设备上,从而增加了通信成本。解决这个问题的一种方法是量化,但目前的 LLM 方法往往避免量化张量并行需要传达的特征。利用……
Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models
这篇论文被 NeurIPS 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。大型语言模型 (LLM) 通常使用固定的计算预算逐个生成输出,导致资源利用率低下。为了解决这一缺点,混合专家 (MoE) 模型、推测解码和早期退出策略方面的最新进展利用了计算需求可能根据输入的复杂性和性质而有很大差异的洞察力。然而,确定动态执行的最佳路由模式仍然是一个开放的问题……
Recurrent Drafter for Fast Speculative Decoding in Large Language Models
我们提出了 Recurrent Drafter (ReDrafter),这是一种先进的推测解码方法,可实现大型语言模型 (LLM) 推理的最先进的加速。性能提升由三个关键方面推动:(1) 利用循环神经网络 (RNN) 作为 LLM 隐藏状态的草稿模型条件,(2) 对波束搜索结果应用动态树注意算法以消除候选序列中的重复前缀,以及 (3) 通过 LLM 中的知识提炼进行训练。ReDrafter 使用 PyTorch 将 MT-Bench 中的 Vicuna 推理速度提高了 3.5 倍……
Enhancing JEPAs with Spatial Conditioning: Robust and Efficient Representation Learning
这篇论文被 NeurIPS 2024 的自监督学习 - 理论与实践 (SSLTP) 研讨会接受。基于图像的联合嵌入预测架构 (IJEPA) 为使用蒙版图像建模框架进行表示学习提供了一种有吸引力的蒙版自动编码器 (MAE) 替代方案。IJEPA 通过在潜在空间而非输入空间中进行预测来驱动表示以捕获有用的语义信息。然而,IJEPA 依赖于精心设计的上下文和目标窗口来避免表示崩溃。IJEPA 中的编码器模块无法自适应地调节类型……
Generalization on the Unseen, Logic Reasoning and Degree Curriculum
本文考虑了逻辑(布尔)函数的学习,重点关注了在未见(GOTU)设置上的泛化,这是分布外泛化的典型案例。这是因为某些推理任务(例如算术/逻辑)中数据的丰富组合性质使得代表性数据采样具有挑战性,并且在 GOTU 下成功学习为“推断”或“推理”学习者提供了第一个小插图。我们研究了由 (S)GD 训练的不同网络架构在 GOTU 下的表现,并提供了理论和实验证据……
Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization
这篇论文被 NeurIPS 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。语言模型的预训练阶段通常从随机初始化的参数开始。根据当前扩展模型的趋势,训练它们的大量参数可能非常缓慢且成本高昂。相比之下,小型语言模型的训练成本较低,但它们通常无法达到大型模型的准确性。在本文中,我们探索了一个将这两种不同机制联系起来的有趣想法:我们能否开发一种使用……初始化大型语言模型的方法
Empirical Methods in Natural Language Processing (EMNLP) 2024
Apple 将在 11 月 12 日至 16 日在佛罗里达州迈阿密举行的自然语言处理经验方法 (EMNLP) 会议上展示新研究。我们很荣幸再次赞助这次会议,它将自然语言处理和人工智能领域的科学和工业研究界聚集在一起。以下是 Apple 参加 EMNLP 2024 的概述。
Optimizing Contextual Speech Recognition Using Vector Quantization for Efficient Retrieval
神经语境偏差允许语音识别模型利用语境相关信息,从而提高转录准确性。然而,偏差机制通常基于音频和偏差条目目录之间的交叉注意模块,这意味着计算复杂性可能会对偏差目录的大小造成严重的实际限制,从而影响准确性的提高。这项工作提出了一种基于矢量量化的交叉注意评分近似值,并实现了计算和内存高效的大偏差使用……
Device-Directed Speech Detection for Follow-up Conversations Using Large Language Models
这篇论文被 NeurIPS Workshop 2024 的自适应基础模型 (AFM) 研讨会接受。与虚拟助手 (VA) 的后续对话使用户能够无缝地与 VA 交互,而无需使用关键字反复调用它(在第一个查询之后)。因此,从后续查询中进行准确的设备导向语音检测 (DDSD) 对于实现自然的用户体验至关重要。为此,我们探索了大型语言模型 (LLM) 的概念,并在对后续查询进行推理时对第一个查询进行建模(基于 ASR 解码的文本),通过……
Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP
大型预训练视觉语言模型(如 CLIP)已显示出良好的泛化能力,但在专业领域(例如卫星图像)或细粒度分类(例如汽车模型)中可能会遇到困难,因为在预训练期间看不到视觉概念或视觉概念代表性不足。即时学习提供了一个参数高效的微调框架,即使在注释数据有限的情况下,也可以使 CLIP 适应下游任务。在本文中,我们通过从自然语言提示(人工或 LLM 生成)中提取文本知识来改进即时学习,以提供……
On Device Llama 3.1 with Core ML
许多应用程序开发人员都对在集成功能日益强大的大型语言模型 (LLM) 的设备体验上进行构建感兴趣。在 Apple 芯片上本地运行这些模型使开发人员能够利用用户设备的功能进行经济高效的推理,而无需向第三方服务器发送数据和从第三方服务器接收数据,这也有助于保护用户隐私。为了做到这一点,必须仔细优化模型以有效利用可用的系统资源,因为 LLM 通常对内存和处理能力都有很高的要求。这篇技术文章详细介绍了如何……
翻译包含实体名称的文本是一项艰巨的任务,因为文化相关的参考在不同语言之间可能存在很大差异。这些差异也可能是由创译引起的,创译是一种适应过程,它涉及的不仅仅是音译和逐字翻译。在本文中,我们从两个方面解决了跨文化翻译的问题:(i) 我们引入了 XC-Translate,这是第一个大规模、手动创建的机器翻译基准,专注于包含可能具有文化细微差别的实体名称的文本,(ii) 我们提出了 KG-MT,一种新颖的端到端……
大型语言模型 (LLM) 和对话助手的快速发展需要动态、可扩展和可配置的对话数据集来进行训练和评估。这些数据集必须适应不同的用户交互模式,包括文本和语音,每种模式都带来了独特的建模挑战。知识图谱 (KG) 具有结构化和不断发展的特性,为当前和精确的知识提供了理想的基础。尽管存在人工策划的基于知识图谱的对话数据集,但它们难以跟上快速变化的用户信息需求。我们提出……
Computational Bottlenecks of Training Small-Scale Large Language Models
这篇论文被 NeurIPS Workshop 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。虽然大型语言模型 (LLM) 主导着人工智能领域,但由于消费者对成本和效率的要求,小规模大型语言模型 (SLM) 正受到关注。然而,对 SLM 的训练行为和计算要求的研究有限。在本研究中,我们通过检查各种超参数和配置(包括 GPU 类型、批量大小等)的影响,探索了训练 SLM(最多 2B 个参数)的计算瓶颈…
许多医疗保健应用本质上是多模态的,涉及多种生理信号。随着这些信号的传感器变得越来越普遍,改进多模态医疗保健数据的机器学习方法至关重要。预训练基础模型是一条有希望的成功途径。然而,在医疗保健领域开发基础模型的方法仍处于早期探索阶段,鉴于生理信号的多样性,目前尚不清楚哪种预训练策略最有效。这部分是由于多模态健康数据面临的挑战:获取许多患者的数据是……
Divide-or-Conquer? Which Part Should You Distill Your LLM?
最近的方法表明,当鼓励大型语言模型 (LLM) 首先解决主任务的子任务时,它们可以更好地解决推理任务。在本文中,我们设计了一种类似的策略,将推理任务分解为问题分解阶段和问题解决阶段,并表明该策略能够胜过单阶段解决方案。此外,我们假设与问题解决相比,分解应该更容易提炼成较小的模型,因为后者需要大量的领域知识,而前者只需要……
Combining Machine Learning and Homomorphic Encryption in the Apple Ecosystem
在 Apple,我们认为隐私是一项基本人权。我们保护用户隐私的工作遵循一系列隐私原则,其中一项原则是优先使用设备上的处理。通过在用户设备上本地执行计算,我们有助于最大限度地减少与 Apple 或其他实体共享的数据量。当然,用户可以请求由机器学习 (ML) 提供支持的设备体验,这些体验可以通过查找服务器上托管的全局知识来丰富。为了在提供这些体验的同时坚持我们对隐私的承诺,我们实施了…
Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison
将语言模型与人类偏好相一致的目标需要能够揭示这些偏好的数据。理想情况下,可以花费时间和金钱仔细收集和定制针对每个下游应用程序的定制偏好数据。然而,在实践中,少数几个公开可用的偏好数据集通常用于训练奖励模型,以从人类反馈 (RLHF) 进行强化学习。虽然新的偏好数据集正在以越来越高的频率被引入,但目前还没有对它们进行测量和比较的努力。在本文中,我们系统地研究了…