KV Prediction for Improved Time to First Token
基于变压器的语言模型推断从迅速的处理步骤开始。在此步骤中,该模型生成了第一个输出令牌并存储未来一代步骤所需的KV缓存。此及时的处理步骤在计算上可能很昂贵,当及时长度或批量尺寸上升时,在边缘设备上的数十亿个参数型号需要10秒或更高的时间。这通过将大量延迟引入模型的输出中来降低用户体验。为了减少产生验证模型的第一个输出(称为“第一个令牌”或TTFT的时间)所花费的时间,我们…
FlexTok: Resampling Images into 1D Token Sequences of Flexible Length
这项工作是与瑞士联邦技术学院Lausanne(EPFL)合作完成的。图像令牌化已通过提供比原始像素更有效处理的压缩,离散表示,从而实现了自回归图像生成的重大进展。尽管传统方法使用2D网格令牌化,但诸如Titok之类的最新方法表明,1D令牌化可以通过消除网格冗余来实现高生成质量。但是,这些方法通常使用固定数量的令牌,因此无法适应图像的固有复杂性。我们介绍…
From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons
我们研究了多模式大语言模型(MLLM)的能力,以解决超出传统语言和视觉任务的不同领域,这些模型通常受到培训。具体而言,我们的重点在于体现的AI,游戏,UI控制和计划等领域。为此,我们引入了将MLLM适应通才体现的代理(GEA)的过程。 GEA是一个单一的统一模型,能够通过多物种作用令牌将自己跨越这些各种领域的自身地接地。 GEA在大量的体现经验数据集中接受了监督学习和…
Transfer Learning in Scalable Graph Neural Network for Improved Physical Simulation
近年来,基于图形神经网络(GNN)模型在模拟复杂物理系统方面显示出令人鼓舞的结果。但是,培训专用的图形网络模拟器可能会昂贵,因为大多数模型都局限于完全监督的培训。训练模型需要从传统模拟器产生的大量数据。如何应用转移学习来提高模型性能和训练效率。在这项工作中,我们引入了图形网络模拟器的预处理和转移学习范式。首先,我们提出了可扩展的图形u-net…
Robust Autonomy Emerges from Self-Play
自我游戏在两人和多玩家游戏中具有动力的突破。在这里,我们表明自我播放是另一个领域中出奇的有效策略。我们表明,健壮和自然主义的驾驶完全来自以前所未有的规模的模拟中的自我播放 - 驾驶的16亿公里。这是由批处理的模拟器Gigaflow启用的,可以在单个8-GPU节点上综合和训练42年的主观驾驶体验。由此产生的政策在三个独立的自动驾驶基准测试中实现了最先进的绩效。该策略的表现优于…
ARMOR: Egocentric Perception for Humanoid Robot Collision Avoidance and Motion Planning
类人生物机器人在感应和感知中存在显着差距,因此很难在密集的环境中执行运动计划。为了解决这个问题,我们介绍了一种新型的以自我为中心的感知系统,该系统同时集成了硬件和软件,专门为人形机器人的可穿戴状深度传感器结合了。我们的分布式感知方法增强了机器人的空间意识,并促进了更敏捷的运动计划。我们还通过利用大约86小时来训练基于变压器的模仿学习(IL)政策,以执行动态碰撞避免……
Findings of the IWSLT 2024 Evaluation Campaign
Ibrahim Said Ahmad†、Antonios Anastasopoulos††††、Ondřej Bojar¶、Claudia Borg††、Marine Carpuat‡、Roldano Cattoni§、Mauro Cettolo§、William Chen‡‡、Qianqian Dong¶¶、Marcello Federico§§、Barry Haddow‡‡‡、Dávid Javorsky¶、Mateusz Krubiński¶、Tsz Kin Lam‡‡‡、Xutai Ma‡‡§、Prashant Mathur§§、Evgeny Matusov¶¶¶、Chandresh
ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model
我们引入了 ImmerseDiffusion,这是一种端到端生成音频模型,可根据声音对象的空间、时间和环境条件产生 3D 沉浸式音景。ImmerseDiffusion 经过训练可生成一阶环绕声 (FOA) 音频,这是一种包含四个通道的传统空间音频格式,可以渲染为多通道空间输出。所提出的生成系统由将 FOA 音频映射到潜在成分的空间音频编解码器、基于各种用户输入类型训练的潜在扩散模型(即文本提示、空间……
Private Federated Learning In Real World Application – A Case Study
本文介绍了一种在边缘设备上使用私有联邦学习 (PFL) 进行机器学习模型训练的实现。我们引入了一种使用 PFL 解决使用用户私有数据训练模型的挑战的新框架。该框架可确保用户数据保留在单个设备上,只有必要的模型更新才会传输到中央服务器进行聚合,并提供隐私保障。我们详细介绍了我们的应用选择模型的架构,该模型结合了具有注意力机制的神经网络和通过不确定性管理进行歧义处理……
Theory, Analysis, and Best Practices for Sigmoid Self-Attention
*主要贡献者注意力机制是 Transformer 架构的关键部分。它是一种序列到序列的映射,可将每个序列元素转换为值的加权和。权重通常作为键和查询之间的点积的 softmax 获得。最近的研究探索了 Transformer 中 softmax 注意力机制的替代方案,例如 ReLU 和 S 型激活。在这项研究中,我们重新审视 S 型注意力机制并进行了深入的理论和实证分析。从理论上讲,我们证明具有 S 形注意力机制的变换器是通用函数逼近器,并且……
随着儿童越来越多地在设备上使用媒体,家长们正在寻找这种使用方式可以支持学习和成长的方法,尤其是在社交情感学习等领域。我们推出了 eaSEL,该系统 (a) 通过生成反思活动将社交情感学习 (SEL) 课程融入儿童视频消费中,(b) 促进亲子之间围绕数字媒体的讨论,而无需共同观看视频。我们对系统在转录中检测社交情感时刻和生成高质量 SEL 的能力进行了技术评估……
Cut Your Losses in Large-Vocabulary Language Models
随着语言模型变得越来越大,其词汇量也越来越大。这导致 LLM 在训练过程中的内存占用不成比例地转移到一个层:损失计算中的交叉熵。交叉熵会构建一个包含每对输入标记和词汇项的条目的逻辑矩阵,对于小型模型,其内存消耗量比其余 LLM 的总和高出一个数量级。我们提出了 Cut Cross-Entropy (CCE),这是一种计算交叉熵损失的方法,无需将所有标记的逻辑实现到全局内存中。相反,CCE 仅计算逻辑……
Reinforcement Learning for Long-Horizon Interactive LLM Agents
交互式数字代理 (IDA) 利用有状态数字环境的 API 来响应用户请求执行任务。虽然由指令调整的大型语言模型 (LLM) 驱动的 IDA 可以对多步骤交换中接口调用的反馈做出反应,但它们尚未在各自的数字环境中接受过训练。之前的方法在 AppWorld 等复杂的基准测试中完成的任务不到一半。我们提出了一种强化学习 (RL) 方法,可直接在目标环境中训练 IDA。我们将这种训练形式化为部分可观察的马尔可夫模型……
Adaptive Training Distributions with Scalable Online Bilevel Optimization
在网络规模语料库上进行预训练的大型神经网络是现代机器学习的核心。在这种范式中,大型异构预训练数据的分布很少与应用领域的分布相匹配。这项工作考虑在拥有反映目标测试条件的少量数据样本的情况下修改预训练分布。我们提出了一种算法,该算法受到最近将此设置表述为在线双层优化问题的启发。考虑到可扩展性,我们的算法优先考虑在可能... 的训练点计算梯度。
Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo
增强大型语言模型 (LLM) 的多步推理能力一直是一个持续的挑战。最近,验证已显示出通过评估生成的输出来提高解决方案一致性的希望。然而,当前的验证方法存在采样效率低下的问题,需要大量样本才能达到令人满意的性能。此外,训练有效的验证者通常依赖于广泛的过程监督,而这需要高昂的成本。在本文中,我们通过引入一种基于 Twisted 的新型验证方法来克服这些限制...
Compact Neural TTS Voices for Accessibility
当代无障碍应用的文本转语音解决方案通常可分为两类:(i) 基于设备的统计参数语音合成 (SPSS) 或单元选择 (USEL) 和 (ii) 基于云的神经 TTS。SPSS 和 USEL 以牺牲自然度和音频质量为代价,提供低延迟和低磁盘占用。基于云的神经 TTS 系统提供明显更好的音频质量和自然度,但在延迟和响应性方面有所退步,使得它们不适用于实际应用。最近,神经 TTS 模型被部署到……
机器翻译 (MT) 正在经历范式转变,基于微调大型语言模型 (LLM) 的系统与专门为翻译任务训练的传统编码器-解码器模型相比,竞争力越来越强。然而,基于 LLM 的系统产生幻觉的风险更高,这会严重损害用户的信任和安全。大多数关于缓解幻觉的先前研究都集中在传统的 MT 模型上,解决方案涉及事后缓解 - 检测幻觉翻译并重新翻译。虽然这种方法有效,但……
Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models
事实证明,扩展语言模型的容量是提高性能和解锁新功能的可靠方法。容量主要由两个维度定义:模型参数的数量和每个示例的计算量。虽然扩展通常涉及增加两者,但这些因素之间的精确相互作用及其对整体容量的综合贡献仍未完全了解。我们在稀疏混合专家 (MoE) 的背景下探索了这种关系,它允许扩展参数数量而不按比例增加……