MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-Tuning
我们提出了MM1.5,这是一个新的多模式大语言模型(MLLMS),旨在增强文本丰富的图像理解,视觉参考和接地以及多图像推理的能力。在MM1体系结构的基础上,MM1.5采用了以数据为中心的方法来模型培训,系统地探索了整个模型培训生命周期中各种数据混合物的影响。这包括用于连续预训练的高质量OCR数据和合成字幕,以及用于监督微调的优化视觉指导数据混合物。我们的型号范围为1B…
dMel: Speech Tokenization Made Simple
大型语言模型通过利用自我监督的大量文本数据预处理来彻底改变了自然语言处理。受到这一成功的启发,研究人员研究了复杂的语音令牌化方法,以离散连续的语音信号,以便将语言建模技术应用于语音数据。但是,现有方法要么模型语义(内容)令牌,可能会丢失声学信息或模型声音令牌,从而冒着语义(内容)信息丢失的风险。拥有多种令牌类型也使体系结构复杂化,并且需要……
Novel View Synthesis with Pixel-Space Diffusion Models
从单个输入图像中综合新的视图是一项具有挑战性的任务。传统上,通过估计场景深度,扭曲和钻孔来完成此任务,并通过机器学习模型实现了管道的一部分。最近,在新型视图合成(NVS)中越来越多地使用了生成模型,通常包含整个端到端系统。在这项工作中,我们适应了现代扩散模型体系结构,用于像素空间中的端到端NV,从而大大优于先前的最新技术(SOTA)技术。我们探索了编码几何的不同方法…
MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs
我们介绍了MIA Bench,这是一种新的基准测试,旨在评估多模式大型语言模型(MLLM),以严格遵守复杂的说明。我们的基准包括一组400个图像推出对,每个基准都旨在挑战模型对分层指令的遵守,以产生满足特定要求的模式的准确响应。各种各样的最先进的MLLM的评估结果显示出绩效的显着差异,突出了改善教学保真度的领域。此外,我们创建了额外的培训数据和…
Evaluating Sample Utility for Data Selection by Mimicking Model Weights
基础模型经过大规模网络爬行数据集的培训,这些数据集通常包含噪声,偏见和无关的信息。这激发了数据选择技术的使用,这些技术可以分为无模型的变体 - 依靠启发式规则和下游数据集 - 以及基于模型的模型,例如使用影响功能。前者设计和冒险引入不必要的依赖性可能是昂贵的,而后者通常在计算上是过于刺激的。相反,我们建议使用MIMIC分数(一种利用…
Wearable Accelerometer Foundation Models for Health via Knowledge Distillation
现代可穿戴设备可以方便地在日常生活的许多不同环境中记录各种生物信号,从而可以对个人健康有丰富的看法。但是,并非所有的生物信号都相同:高保真生物信号(例如Photoplethymbogram图(PPG))包含更多的生理信息,但需要具有高功率足迹的光传感器。另外,诸如加速度计之类的低保真生物信号具有明显较小的功率足迹,并且几乎在任何可穿戴设备中都可以使用。虽然加速度计广泛用于活动识别和健身,但它较少……
Grounding Multimodal Large Language Models in Actions
多模式大语言模型(MLLM)已证明了包括体现AI在内的许多领域的广泛功能。在这项工作中,我们研究了如何将MLLM最佳地扎根于不同的实施方案及其相关的作用空间,以利用MLLM的多模式世界知识。我们首先通过统一体系结构和动作空间适配器的镜头概括了许多方法。对于连续的动作,我们表明,学识渊博的令牌化可以实现足够的建模精度,从而在下游任务上产生最佳性能。对于离散的动作…
KV Prediction for Improved Time to First Token
基于变压器的语言模型推断从迅速的处理步骤开始。在此步骤中,该模型生成了第一个输出令牌并存储未来一代步骤所需的KV缓存。此及时的处理步骤在计算上可能很昂贵,当及时长度或批量尺寸上升时,在边缘设备上的数十亿个参数型号需要10秒或更高的时间。这通过将大量延迟引入模型的输出中来降低用户体验。为了减少产生验证模型的第一个输出(称为“第一个令牌”或TTFT的时间)所花费的时间,我们…
From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons
我们研究了多模式大语言模型(MLLM)的能力,以解决超出传统语言和视觉任务的不同领域,这些模型通常受到培训。具体而言,我们的重点在于体现的AI,游戏,UI控制和计划等领域。为此,我们引入了将MLLM适应通才体现的代理(GEA)的过程。 GEA是一个单一的统一模型,能够通过多物种作用令牌将自己跨越这些各种领域的自身地接地。 GEA在大量的体现经验数据集中接受了监督学习和…
FlexTok: Resampling Images into 1D Token Sequences of Flexible Length
这项工作是与瑞士联邦技术学院Lausanne(EPFL)合作完成的。图像令牌化已通过提供比原始像素更有效处理的压缩,离散表示,从而实现了自回归图像生成的重大进展。尽管传统方法使用2D网格令牌化,但诸如Titok之类的最新方法表明,1D令牌化可以通过消除网格冗余来实现高生成质量。但是,这些方法通常使用固定数量的令牌,因此无法适应图像的固有复杂性。我们介绍…
Transfer Learning in Scalable Graph Neural Network for Improved Physical Simulation
近年来,基于图形神经网络(GNN)模型在模拟复杂物理系统方面显示出令人鼓舞的结果。但是,培训专用的图形网络模拟器可能会昂贵,因为大多数模型都局限于完全监督的培训。训练模型需要从传统模拟器产生的大量数据。如何应用转移学习来提高模型性能和训练效率。在这项工作中,我们引入了图形网络模拟器的预处理和转移学习范式。首先,我们提出了可扩展的图形u-net…
Robust Autonomy Emerges from Self-Play
自我游戏在两人和多玩家游戏中具有动力的突破。在这里,我们表明自我播放是另一个领域中出奇的有效策略。我们表明,健壮和自然主义的驾驶完全来自以前所未有的规模的模拟中的自我播放 - 驾驶的16亿公里。这是由批处理的模拟器Gigaflow启用的,可以在单个8-GPU节点上综合和训练42年的主观驾驶体验。由此产生的政策在三个独立的自动驾驶基准测试中实现了最先进的绩效。该策略的表现优于…
ARMOR: Egocentric Perception for Humanoid Robot Collision Avoidance and Motion Planning
类人生物机器人在感应和感知中存在显着差距,因此很难在密集的环境中执行运动计划。为了解决这个问题,我们介绍了一种新型的以自我为中心的感知系统,该系统同时集成了硬件和软件,专门为人形机器人的可穿戴状深度传感器结合了。我们的分布式感知方法增强了机器人的空间意识,并促进了更敏捷的运动计划。我们还通过利用大约86小时来训练基于变压器的模仿学习(IL)政策,以执行动态碰撞避免……
Private Federated Learning In Real World Application – A Case Study
本文介绍了一种在边缘设备上使用私有联邦学习 (PFL) 进行机器学习模型训练的实现。我们引入了一种使用 PFL 解决使用用户私有数据训练模型的挑战的新框架。该框架可确保用户数据保留在单个设备上,只有必要的模型更新才会传输到中央服务器进行聚合,并提供隐私保障。我们详细介绍了我们的应用选择模型的架构,该模型结合了具有注意力机制的神经网络和通过不确定性管理进行歧义处理……
ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model
我们引入了 ImmerseDiffusion,这是一种端到端生成音频模型,可根据声音对象的空间、时间和环境条件产生 3D 沉浸式音景。ImmerseDiffusion 经过训练可生成一阶环绕声 (FOA) 音频,这是一种包含四个通道的传统空间音频格式,可以渲染为多通道空间输出。所提出的生成系统由将 FOA 音频映射到潜在成分的空间音频编解码器、基于各种用户输入类型训练的潜在扩散模型(即文本提示、空间……
Findings of the IWSLT 2024 Evaluation Campaign
Ibrahim Said Ahmad†、Antonios Anastasopoulos††††、Ondřej Bojar¶、Claudia Borg††、Marine Carpuat‡、Roldano Cattoni§、Mauro Cettolo§、William Chen‡‡、Qianqian Dong¶¶、Marcello Federico§§、Barry Haddow‡‡‡、Dávid Javorsky¶、Mateusz Krubiński¶、Tsz Kin Lam‡‡‡、Xutai Ma‡‡§、Prashant Mathur§§、Evgeny Matusov¶¶¶、Chandresh
Theory, Analysis, and Best Practices for Sigmoid Self-Attention
*主要贡献者注意力机制是 Transformer 架构的关键部分。它是一种序列到序列的映射,可将每个序列元素转换为值的加权和。权重通常作为键和查询之间的点积的 softmax 获得。最近的研究探索了 Transformer 中 softmax 注意力机制的替代方案,例如 ReLU 和 S 型激活。在这项研究中,我们重新审视 S 型注意力机制并进行了深入的理论和实证分析。从理论上讲,我们证明具有 S 形注意力机制的变换器是通用函数逼近器,并且……
随着儿童越来越多地在设备上使用媒体,家长们正在寻找这种使用方式可以支持学习和成长的方法,尤其是在社交情感学习等领域。我们推出了 eaSEL,该系统 (a) 通过生成反思活动将社交情感学习 (SEL) 课程融入儿童视频消费中,(b) 促进亲子之间围绕数字媒体的讨论,而无需共同观看视频。我们对系统在转录中检测社交情感时刻和生成高质量 SEL 的能力进行了技术评估……