Apple机器学习研究领域信息情报检索---XiaoMi-AI

2024年11月18日 00:00

用于大型语言模型中快速推测解码的循环起草器

Recurrent Drafter for Fast Speculative Decoding in Large Language Models

我们提出了 Recurrent Drafter (ReDrafter)，这是一种先进的推测解码方法，可实现大型语言模型 (LLM) 推理的最先进的加速。性能提升由三个关键方面推动：(1) 利用循环神经网络 (RNN) 作为 LLM 隐藏状态的草稿模型条件，(2) 对波束搜索结果应用动态树注意算法以消除候选序列中的重复前缀，以及 (3) 通过 LLM 中的知识提炼进行训练。ReDrafter 使用 PyTorch 将 MT-Bench 中的 Vicuna 推理速度提高了 3.5 倍……

2024年11月18日 00:00

Duo-LLM：用于研究大型语言模型中的自适应计算的框架

Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models

这篇论文被 NeurIPS 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。大型语言模型 (LLM) 通常使用固定的计算预算逐个生成输出，导致资源利用率低下。为了解决这一缺点，混合专家 (MoE) 模型、推测解码和早期退出策略方面的最新进展利用了计算需求可能根据输入的复杂性和性质而有很大差异的洞察力。然而，确定动态执行的最佳路由模式仍然是一个开放的问题……

2024年11月12日 00:00

智能扩展：通过小型模型初始化加速大型语言模型预训练

Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization

这篇论文被 NeurIPS 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。语言模型的预训练阶段通常从随机初始化的参数开始。根据当前扩展模型的趋势，训练它们的大量参数可能非常缓慢且成本高昂。相比之下，小型语言模型的训练成本较低，但它们通常无法达到大型模型的准确性。在本文中，我们探索了一个将这两种不同机制联系起来的有趣想法：我们能否开发一种使用……初始化大型语言模型的方法

2024年11月5日 07:46

自然语言处理中的经验方法 (EMNLP) 2024

Empirical Methods in Natural Language Processing (EMNLP) 2024

Apple 将在 11 月 12 日至 16 日在佛罗里达州迈阿密举行的自然语言处理经验方法 (EMNLP) 会议上展示新研究。我们很荣幸再次赞助这次会议，它将自然语言处理和人工智能领域的科学和工业研究界聚集在一起。以下是 Apple 参加 EMNLP 2024 的概述。

2024年11月5日 00:00

使用大型语言模型进行后续对话的设备导向语音检测

Device-Directed Speech Detection for Follow-up Conversations Using Large Language Models

这篇论文被 NeurIPS Workshop 2024 的自适应基础模型 (AFM) 研讨会接受。与虚拟助手 (VA) 的后续对话使用户能够无缝地与 VA 交互，而无需使用关键字反复调用它（在第一个查询之后）。因此，从后续查询中进行准确的设备导向语音检测 (DDSD) 对于实现自然的用户体验至关重要。为此，我们探索了大型语言模型 (LLM) 的概念，并在对后续查询进行推理时对第一个查询进行建模（基于 ASR 解码的文本），通过……

2024年11月5日 00:00

使用矢量量化优化上下文语音识别以实现高效检索

Optimizing Contextual Speech Recognition Using Vector Quantization for Efficient Retrieval

神经语境偏差允许语音识别模型利用语境相关信息，从而提高转录准确性。然而，偏差机制通常基于音频和偏差条目目录之间的交叉注意模块，这意味着计算复杂性可能会对偏差目录的大小造成严重的实际限制，从而影响准确性的提高。这项工作提出了一种基于矢量量化的交叉注意评分近似值，并实现了计算和内存高效的大偏差使用……

2024年11月4日 00:00

聚合和调整自然语言提示以实现 CLIP 的下游泛化

Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP

大型预训练视觉语言模型（如 CLIP）已显示出良好的泛化能力，但在专业领域（例如卫星图像）或细粒度分类（例如汽车模型）中可能会遇到困难，因为在预训练期间看不到视觉概念或视觉概念代表性不足。即时学习提供了一个参数高效的微调框架，即使在注释数据有限的情况下，也可以使 CLIP 适应下游任务。在本文中，我们通过从自然语言提示（人工或 LLM 生成）中提取文本知识来改进即时学习，以提供……

2024年11月1日 00:00

设备上的 Llama 3.1 带有 Core ML

On Device Llama 3.1 with Core ML

许多应用程序开发人员都对在集成功能日益强大的大型语言模型 (LLM) 的设备体验上进行构建感兴趣。在 Apple 芯片上本地运行这些模型使开发人员能够利用用户设备的功能进行经济高效的推理，而无需向第三方服务器发送数据和从第三方服务器接收数据，这也有助于保护用户隐私。为了做到这一点，必须仔细优化模型以有效利用可用的系统资源，因为 LLM 通常对内存和处理能力都有很高的要求。这篇技术文章详细介绍了如何……

2024年10月30日 00:00

通过多语言知识图谱检索增强生成实现跨文化机器翻译

Towards Cross-Cultural Machine Translation with Retrieval-Augmented Generation from Multilingual Knowledge Graphs

翻译包含实体名称的文本是一项艰巨的任务，因为文化相关的参考在不同语言之间可能存在很大差异。这些差异也可能是由创译引起的，创译是一种适应过程，它涉及的不仅仅是音译和逐字翻译。在本文中，我们从两个方面解决了跨文化翻译的问题：(i) 我们引入了 XC-Translate，这是第一个大规模、手动创建的机器翻译基准，专注于包含可能具有文化细微差别的实体名称的文本，(ii) 我们提出了 KG-MT，一种新颖的端到端……

2024年10月29日 00:00

训练小规模大型语言模型的计算瓶颈

Computational Bottlenecks of Training Small-Scale Large Language Models

这篇论文被 NeurIPS Workshop 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。虽然大型语言模型 (LLM) 主导着人工智能领域，但由于消费者对成本和效率的要求，小规模大型语言模型 (SLM) 正受到关注。然而，对 SLM 的训练行为和计算要求的研究有限。在本研究中，我们通过检查各种超参数和配置（包括 GPU 类型、批量大小等）的影响，探索了训练 SLM（最多 2B 个参数）的计算瓶颈…

2024年10月29日 00:00

ConvKGYarn：使用大型语言模型构建可配置、可扩展的对话知识图谱 QA 数据集

ConvKGYarn: Spinning Configurable and Scalable Conversational Knowledge Graph QA Datasets with Large Language Models

大型语言模型 (LLM) 和对话助手的快速发展需要动态、可扩展和可配置的对话数据集来进行训练和评估。这些数据集必须适应不同的用户交互模式，包括文本和语音，每种模式都带来了独特的建模挑战。知识图谱 (KG) 具有结构化和不断发展的特性，为当前和精确的知识提供了理想的基础。尽管存在人工策划的基于知识图谱的对话数据集，但它们难以跟上快速变化的用户信息需求。我们提出……

2024年10月28日 00:00

促进跨模态表征以改进生理信号的多模态基础模型

Promoting Cross-Modal Representations to Improve Multimodal Foundation Models for Physiological Signals

许多医疗保健应用本质上是多模态的，涉及多种生理信号。随着这些信号的传感器变得越来越普遍，改进多模态医疗保健数据的机器学习方法至关重要。预训练基础模型是一条有希望的成功途径。然而，在医疗保健领域开发基础模型的方法仍处于早期探索阶段，鉴于生理信号的多样性，目前尚不清楚哪种预训练策略最有效。这部分是由于多模态健康数据面临的挑战：获取许多患者的数据是……

2024年10月25日 00:00

分而治之？您应该提炼 LLM 的哪一部分？

Divide-or-Conquer? Which Part Should You Distill Your LLM?

最近的方法表明，当鼓励大型语言模型 (LLM) 首先解决主任务的子任务时，它们可以更好地解决推理任务。在本文中，我们设计了一种类似的策略，将推理任务分解为问题分解阶段和问题解决阶段，并表明该策略能够胜过单阶段解决方案。此外，我们假设与问题解决相比，分解应该更容易提炼成较小的模型，因为后者需要大量的领域知识，而前者只需要……

2024年10月24日 00:00

在 Apple 生态系统中结合机器学习和同态加密

Combining Machine Learning and Homomorphic Encryption in the Apple Ecosystem

在 Apple，我们认为隐私是一项基本人权。我们保护用户隐私的工作遵循一系列隐私原则，其中一项原则是优先使用设备上的处理。通过在用户设备上本地执行计算，我们有助于最大限度地减少与 Apple 或其他实体共享的数据量。当然，用户可以请求由机器学习 (ML) 提供支持的设备体验，这些体验可以通过查找服务器上托管的全局知识来丰富。为了在提供这些体验的同时坚持我们对隐私的承诺，我们实施了…

2024年10月23日 00:00

MUSCLE：兼容 LLM 演化的模型更新策略

MUSCLE: A Model Update Strategy for Compatible LLM Evolution

大型语言模型 (LLM) 会定期更新以提高性能，通常是通过更改数据或架构来实现的。在更新过程中，开发人员通常优先考虑改进整体性能指标，而较少关注与早期模型版本的兼容性。从一个模型版本到下一个模型版本，实例级性能下降（实例回归）可能会干扰用户对特定语言模型功能的心理模型。用户每次更新都必须调整他们的心理模型，这可能会导致不满，尤其是当……

2024年10月23日 00:00

面向以数据为中心的 RLHF：偏好数据集比较的简单指标

Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison

将语言模型与人类偏好相一致的目标需要能够揭示这些偏好的数据。理想情况下，可以花费时间和金钱仔细收集和定制针对每个下游应用程序的定制偏好数据。然而，在实践中，少数几个公开可用的偏好数据集通常用于训练奖励模型，以从人类反馈 (RLHF) 进行强化学习。虽然新的偏好数据集正在以越来越高的频率被引入，但目前还没有对它们进行测量和比较的努力。在本文中，我们系统地研究了…

2024年10月18日 00:00

4M-21：适用于数十种任务和模式的任意视觉模型

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

*平等贡献者当前的多模态和多任务基础模型（如 4M 或 UnifiedIO）显示出了良好的结果，但在实践中，它们接受不同输入和执行不同任务的开箱即用能力受到它们所训练的模态和任务数量（通常相当少）的限制。在本文中，我们通过在数十种高度多样化的模态上对其进行训练以及在大规模多模态数据集和文本语料库上进行联合训练，显著扩展了 4M 的功能。这包括对几种语义和几何模态、特征图的训练......

2024年10月16日 00:00

与 Wally 一起进行可扩展的私人搜索

Scalable Private Search with Wally

本文介绍了 Wally，这是一个支持对大型数据库进行高效语义和关键字搜索查询的隐私搜索系统。当有足够多的客户端进行查询时，Wally 的性能明显优于以前的系统。在以前的隐私搜索系统中，对于每个客户端查询，服务器必须对每个数据库条目执行至少一次昂贵的加密操作。因此，性能会随着数据库中条目的数量而成比例下降。在 Wally 中，我们消除了这一限制。具体来说，对于每个查询，服务器都会执行加密……