ARMOR: Egocentric Perception for Humanoid Robot Collision Avoidance and Motion Planning
类人生物机器人在感应和感知中存在显着差距,因此很难在密集的环境中执行运动计划。为了解决这个问题,我们介绍了一种新型的以自我为中心的感知系统,该系统同时集成了硬件和软件,专门为人形机器人的可穿戴状深度传感器结合了。我们的分布式感知方法增强了机器人的空间意识,并促进了更敏捷的运动计划。我们还通过利用大约86小时来训练基于变压器的模仿学习(IL)政策,以执行动态碰撞避免……
Private Federated Learning In Real World Application – A Case Study
本文介绍了一种在边缘设备上使用私有联邦学习 (PFL) 进行机器学习模型训练的实现。我们引入了一种使用 PFL 解决使用用户私有数据训练模型的挑战的新框架。该框架可确保用户数据保留在单个设备上,只有必要的模型更新才会传输到中央服务器进行聚合,并提供隐私保障。我们详细介绍了我们的应用选择模型的架构,该模型结合了具有注意力机制的神经网络和通过不确定性管理进行歧义处理……
Findings of the IWSLT 2024 Evaluation Campaign
Ibrahim Said Ahmad†、Antonios Anastasopoulos††††、Ondřej Bojar¶、Claudia Borg††、Marine Carpuat‡、Roldano Cattoni§、Mauro Cettolo§、William Chen‡‡、Qianqian Dong¶¶、Marcello Federico§§、Barry Haddow‡‡‡、Dávid Javorsky¶、Mateusz Krubiński¶、Tsz Kin Lam‡‡‡、Xutai Ma‡‡§、Prashant Mathur§§、Evgeny Matusov¶¶¶、Chandresh
ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model
我们引入了 ImmerseDiffusion,这是一种端到端生成音频模型,可根据声音对象的空间、时间和环境条件产生 3D 沉浸式音景。ImmerseDiffusion 经过训练可生成一阶环绕声 (FOA) 音频,这是一种包含四个通道的传统空间音频格式,可以渲染为多通道空间输出。所提出的生成系统由将 FOA 音频映射到潜在成分的空间音频编解码器、基于各种用户输入类型训练的潜在扩散模型(即文本提示、空间……
Theory, Analysis, and Best Practices for Sigmoid Self-Attention
*主要贡献者注意力机制是 Transformer 架构的关键部分。它是一种序列到序列的映射,可将每个序列元素转换为值的加权和。权重通常作为键和查询之间的点积的 softmax 获得。最近的研究探索了 Transformer 中 softmax 注意力机制的替代方案,例如 ReLU 和 S 型激活。在这项研究中,我们重新审视 S 型注意力机制并进行了深入的理论和实证分析。从理论上讲,我们证明具有 S 形注意力机制的变换器是通用函数逼近器,并且……
随着儿童越来越多地在设备上使用媒体,家长们正在寻找这种使用方式可以支持学习和成长的方法,尤其是在社交情感学习等领域。我们推出了 eaSEL,该系统 (a) 通过生成反思活动将社交情感学习 (SEL) 课程融入儿童视频消费中,(b) 促进亲子之间围绕数字媒体的讨论,而无需共同观看视频。我们对系统在转录中检测社交情感时刻和生成高质量 SEL 的能力进行了技术评估……
Cut Your Losses in Large-Vocabulary Language Models
随着语言模型变得越来越大,其词汇量也越来越大。这导致 LLM 在训练过程中的内存占用不成比例地转移到一个层:损失计算中的交叉熵。交叉熵会构建一个包含每对输入标记和词汇项的条目的逻辑矩阵,对于小型模型,其内存消耗量比其余 LLM 的总和高出一个数量级。我们提出了 Cut Cross-Entropy (CCE),这是一种计算交叉熵损失的方法,无需将所有标记的逻辑实现到全局内存中。相反,CCE 仅计算逻辑……
Reinforcement Learning for Long-Horizon Interactive LLM Agents
交互式数字代理 (IDA) 利用有状态数字环境的 API 来响应用户请求执行任务。虽然由指令调整的大型语言模型 (LLM) 驱动的 IDA 可以对多步骤交换中接口调用的反馈做出反应,但它们尚未在各自的数字环境中接受过训练。之前的方法在 AppWorld 等复杂的基准测试中完成的任务不到一半。我们提出了一种强化学习 (RL) 方法,可直接在目标环境中训练 IDA。我们将这种训练形式化为部分可观察的马尔可夫模型……
Adaptive Training Distributions with Scalable Online Bilevel Optimization
在网络规模语料库上进行预训练的大型神经网络是现代机器学习的核心。在这种范式中,大型异构预训练数据的分布很少与应用领域的分布相匹配。这项工作考虑在拥有反映目标测试条件的少量数据样本的情况下修改预训练分布。我们提出了一种算法,该算法受到最近将此设置表述为在线双层优化问题的启发。考虑到可扩展性,我们的算法优先考虑在可能... 的训练点计算梯度。
Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo
增强大型语言模型 (LLM) 的多步推理能力一直是一个持续的挑战。最近,验证已显示出通过评估生成的输出来提高解决方案一致性的希望。然而,当前的验证方法存在采样效率低下的问题,需要大量样本才能达到令人满意的性能。此外,训练有效的验证者通常依赖于广泛的过程监督,而这需要高昂的成本。在本文中,我们通过引入一种基于 Twisted 的新型验证方法来克服这些限制...
机器翻译 (MT) 正在经历范式转变,基于微调大型语言模型 (LLM) 的系统与专门为翻译任务训练的传统编码器-解码器模型相比,竞争力越来越强。然而,基于 LLM 的系统产生幻觉的风险更高,这会严重损害用户的信任和安全。大多数关于缓解幻觉的先前研究都集中在传统的 MT 模型上,解决方案涉及事后缓解 - 检测幻觉翻译并重新翻译。虽然这种方法有效,但……
Compact Neural TTS Voices for Accessibility
当代无障碍应用的文本转语音解决方案通常可分为两类:(i) 基于设备的统计参数语音合成 (SPSS) 或单元选择 (USEL) 和 (ii) 基于云的神经 TTS。SPSS 和 USEL 以牺牲自然度和音频质量为代价,提供低延迟和低磁盘占用。基于云的神经 TTS 系统提供明显更好的音频质量和自然度,但在延迟和响应性方面有所退步,使得它们不适用于实际应用。最近,神经 TTS 模型被部署到……
Provable Uncertainty Decomposition via Higher-Order Calibration
我们给出了一种原则性方法,用于将模型的预测不确定性分解为具有明确语义的随机和认知组件,将它们与真实世界的数据分布相关联。虽然文献中的许多作品都提出了这样的分解,但它们缺乏我们提供的正式保证类型。我们的方法基于高阶校准的新概念,它将普通校准推广到高阶预测器的设置,这些预测器在每个点上预测标签分布的混合。我们展示了如何测量以及实现高阶校准……
Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models
事实证明,扩展语言模型的容量是提高性能和解锁新功能的可靠方法。容量主要由两个维度定义:模型参数的数量和每个示例的计算量。虽然扩展通常涉及增加两者,但这些因素之间的精确相互作用及其对整体容量的综合贡献仍未完全了解。我们在稀疏混合专家 (MoE) 的背景下探索了这种关系,它允许扩展参数数量而不按比例增加……
EMOTION: Expressive Motion Sequence Generation for Humanoid Robots with In-Context Learning
本文介绍了一种名为 EMOTION 的框架,用于在人形机器人中生成富有表现力的运动序列,从而增强它们进行类似人类的非语言交流的能力。面部表情、手势和身体动作等非语言线索在有效的人际互动中起着至关重要的作用。尽管机器人行为取得了进步,但现有方法往往无法模仿人类非语言交流的多样性和微妙性。为了解决这一差距,我们的方法利用大型语言模型 (LLM) 的上下文学习能力来……
ELEGNT: Expressive and Functional Movement Design for Non-Anthropomorphic Robot
在人际交往中,姿势、手势和凝视等非语言行为对于有意识和无意识地传达内部状态至关重要。为了让机器人与人类更自然地互动,机器人运动设计同样应该将表达品质(例如意图、注意力和情感)与传统的功能考虑因素(如任务完成、空间限制和时间效率)结合起来。在本文中,我们介绍了一种灯状机器人的设计和原型设计,该机器人探索了运动中功能性和表达目标之间的相互作用……
Mapping Cells Through Time and Space With Moscot
单细胞基因组学技术能够在时间和空间维度上对数百万个细胞进行多模态分析。实验限制阻碍了在其原生时间动态或空间组织环境中测量包罗万象的细胞状态。最佳传输理论已成为克服此类限制的有力工具,能够恢复原始细胞环境。然而,目前大多数可用的算法实现都没有跟上数据集复杂性不断增加的步伐,因此当前的方法无法结合多模式……
本文介绍了一种使用大型语言模型 (LLM) 进行端到端自动语音识别 (E2E-ASR) 的有效解码方法。虽然浅层融合是将语言模型纳入 E2E-ASR 解码的最常见方法,但我们在 LLM 方面面临两个实际问题。 (1) LLM 推理在计算上成本高昂。 (2) ASR 模型和 LLM 之间可能存在词汇不匹配。为了解决这种不匹配,我们需要重新训练 ASR 模型和/或 LLM,这在最好的情况下很耗时,而且在许多情况下是不可行的。我们提出了“延迟融合”,它应用 LLM 分数……