Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

SELMA:虚拟助手互动的语言语言模型

SELMA: A Speech-Enabled Language Model for Virtual Assistant Interactions

在这项工作中,我们介绍和评估Selma,这是一个针对虚拟助手交互的语言语言模型,将音频和文本集成为大型语言模型(LLM)的输入。 Selma旨在处理与单个端到端模型中同时与虚拟助手相互作用相关的三个主要和两个辅助任务。我们采用低级适应模块来对音频编码器和LLM进行参数效率训练。此外,我们实施了一个功能汇总策略,使系统能够识别全球模式并提高任务的准确性……

在边境模型中是否出现空间认知?

Does Spatial Cognition Emerge in Frontier Models?

还没有。我们提出空间,这是一个系统地评估边境模型中空间认知的基准。我们的基准基于认知科学的数十年研究。它评估了当生物体穿越物理环境,对物体形状和布局的较小规模的推理以及认知基础架构(如空间注意力和记忆)时,它会带来的大规模映射能力。对于许多任务,我们通过文本和图像实例化并行演示,使我们能够基准大型语言模型和大型多模式模型。结果表明…

Speaker-ipl:使用基于I-矢量的伪标签

Speaker-IPL: Unsupervised Learning of Speaker Characteristics with i-Vector Based Pseudo-Labels

使用当前迭代的改进模型为下一次迭代提供伪标记 - 已被证明是提高说话者表示质量的有力方法。 IPL在无监督的说话者识别中的最新应用是从非常复杂的自我监管方法(例如Dino)中提取的表示开始。但是,培训如此强大的自我监督模型并不是直接的(它们需要高参数调整,并且可能不会推广到室外数据),而且可能不是……

MM1.5:多模式LLM微调

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-Tuning

我们提出了MM1.5,这是一个新的多模式大语言模型(MLLMS),旨在增强文本丰富的图像理解,视觉参考和接地以及多图像推理的能力。在MM1体系结构的基础上,MM1.5采用了以数据为中心的方法来模型培训,系统地探索了整个模型培训生命周期中各种数据混合物的影响。这包括用于连续预训练的高质量OCR数据和合成字幕,以及用于监督微调的优化视觉指导数据混合物。我们的型号范围为1B…

具有像素空间扩散模型的新型视图合成

Novel View Synthesis with Pixel-Space Diffusion Models

从单个输入图像中综合新的视图是一项具有挑战性的任务。传统上,通过估计场景深度,扭曲和钻孔来完成此任务,并通过机器学习模型实现了管道的一部分。最近,在新型视图合成(NVS)中越来越多地使用了生成模型,通常包含整个端到端系统。在这项工作中,我们适应了现代扩散模型体系结构,用于像素空间中的端到端NV,从而大大优于先前的最新技术(SOTA)技术。我们探索了编码几何的不同方法…

dmel:语音令牌化变得简单

dMel: Speech Tokenization Made Simple

大型语言模型通过利用自我监督的大量文本数据预处理来彻底改变了自然语言处理。受到这一成功的启发,研究人员研究了复杂的语音令牌化方法,以离散连续的语音信号,以便将语言建模技术应用于语音数据。但是,现有方法要么模型语义(内容)令牌,可能会丢失声学信息或模型声音令牌,从而冒着语义(内容)信息丢失的风险。拥有多种令牌类型也使体系结构复杂化,并且需要……

mia bench:在评估多模式LLMS

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs

我们介绍了MIA Bench,这是一种新的基准测试,旨在评估多模式大型语言模型(MLLM),以严格遵守复杂的说明。我们的基准包括一组400个图像推出对,每个基准都旨在挑战模型对分层指令的遵守,以产生满足特定要求的模式的准确响应。各种各样的最先进的MLLM的评估结果显示出绩效的显着差异,突出了改善教学保真度的领域。此外,我们创建了额外的培训数据和…

可穿戴加速度计通过知识蒸馏

Wearable Accelerometer Foundation Models for Health via Knowledge Distillation

现代可穿戴设备可以方便地在日常生活的许多不同环境中记录各种生物信号,从而可以对个人健康有丰富的看法。但是,并非所有的生物信号都相同:高保真生物信号(例如Photoplethymbogram图(PPG))包含更多的生理信息,但需要具有高功率足迹的光传感器。另外,诸如加速度计之类的低保真生物信号具有明显较小的功率足迹,并且几乎在任何可穿戴设备中都可以使用。虽然加速度计广泛用于活动识别和健身,但它较少……

通过模仿模型权重评估样品实用程序以进行数据选择

Evaluating Sample Utility for Data Selection by Mimicking Model Weights

基础模型经过大规模网络爬行数据集的培训,这些数据集通常包含噪声,偏见和无关的信息。这激发了数据选择技术的使用,这些技术可以分为无模型的变体 - 依靠启发式规则和下游数据集 - 以及基于模型的模型,例如使用影响功能。前者设计和冒险引入不必要的依赖性可能是昂贵的,而后者通常在计算上是过于刺激的。相反,我们建议使用MIMIC分数(一种利用…

接地在动作中的多模式大语模型

Grounding Multimodal Large Language Models in Actions

多模式大语言模型(MLLM)已证明了包括体现AI在内的许多领域的广泛功能。在这项工作中,我们研究了如何将MLLM最佳地扎根于不同的实施方案及其相关的作用空间,以利用MLLM的多模式世界知识。我们首先通过统一体系结构和动作空间适配器的镜头概括了许多方法。对于连续的动作,我们表明,学识渊博的令牌化可以实现足够的建模精度,从而在下游任务上产生最佳性能。对于离散的动作…

flextok:将图像重新采样到柔性长度的1D令牌序列

FlexTok: Resampling Images into 1D Token Sequences of Flexible Length

这项工作是与瑞士联邦技术学院Lausanne(EPFL)合作完成的。图像令牌化已通过提供比原始像素更有效处理的压缩,离散表示,从而实现了自回归图像生成的重大进展。尽管传统方法使用2D网格令牌化,但诸如Titok之类的最新方法表明,1D令牌化可以通过消除网格冗余来实现高生成质量。但是,这些方法通常使用固定数量的令牌,因此无法适应图像的固有复杂性。我们介绍…

从多模式LLM到通才体现的药物:方法和课程

From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons

我们研究了多模式大语言模型(MLLM)的能力,以解决超出传统语言和视觉任务的不同领域,这些模型通常受到培训。具体而言,我们的重点在于体现的AI,游戏,UI控制和计划等领域。为此,我们引入了将MLLM适应通才体现的代理(GEA)的过程。 GEA是一个单一的统一模型,能够通过多物种作用令牌将自己跨越这些各种领域的自身地接地。 GEA在大量的体现经验数据集中接受了监督学习和…

KV预测提高了第一个令牌

KV Prediction for Improved Time to First Token

基于变压器的语言模型推断从迅速的处理步骤开始。在此步骤中,该模型生成了第一个输出令牌并存储未来一代步骤所需的KV缓存。此及时的处理步骤在计算上可能很昂贵,当及时长度或批量尺寸上升时,在边缘设备上的数十亿个参数型号需要10秒或更高的时间。这通过将大量延迟引入模型的输出中来降低用户体验。为了减少产生验证模型的第一个输出(称为“第一个令牌”或TTFT的时间)所花费的时间,我们…

可扩展图神经网络中的转移学习,以改善物理模拟

Transfer Learning in Scalable Graph Neural Network for Improved Physical Simulation

近年来,基于图形神经网络(GNN)模型在模拟复杂物理系统方面显示出令人鼓舞的结果。但是,培训专用的图形网络模拟器可能会昂贵,因为大多数模型都局限于完全监督的培训。训练模型需要从传统模拟器产生的大量数据。如何应用转移学习来提高模型性能和训练效率。在这项工作中,我们引入了图形网络模拟器的预处理和转移学习范式。首先,我们提出了可扩展的图形u-net…

自主性强大的自主性

Robust Autonomy Emerges from Self-Play

自我游戏在两人和多玩家游戏中具有动力的突破。在这里,我们表明自我播放是另一个领域中出奇的有效策略。我们表明,健壮和自然主义的驾驶完全来自以前所未有的规模的模拟中的自我播放 - 驾驶的16亿公里。这是由批处理的模拟器Gigaflow启用的,可以在单个8-GPU节点上综合和训练42年的主观驾驶体验。由此产生的政策在三个独立的自动驾驶基准测试中实现了最先进的绩效。该策略的表现优于…

装甲:人形机器人碰撞避免和运动计划的以eg中心感知

ARMOR: Egocentric Perception for Humanoid Robot Collision Avoidance and Motion Planning

类人生物机器人在感应和感知中存在显着差距,因此很难在密集的环境中执行运动计划。为了解决这个问题,我们介绍了一种新型的以自我为中心的感知系统,该系统同时集成了硬件和软件,专门为人形机器人的可穿戴状深度传感器结合了。我们的分布式感知方法增强了机器人的空间意识,并促进了更敏捷的运动计划。我们还通过利用大约86小时来训练基于变压器的模仿学习(IL)政策,以执行动态碰撞避免……

ImmerseDiffusion:生成空间音频潜在扩散模型

ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model

我们引入了 ImmerseDiffusion,这是一种端到端生成音频模型,可根据声音对象的空间、时间和环境条件产生 3D 沉浸式音景。ImmerseDiffusion 经过训练可生成一阶环绕声 (FOA) 音频,这是一种包含四个通道的传统空间音频格式,可以渲染为多通道空间输出。所提出的生成系统由将 FOA 音频映射到潜在成分的空间音频编解码器、基于各种用户输入类型训练的潜在扩散模型(即文本提示、空间……

IWSLT 2024 评估活动的结果

Findings of the IWSLT 2024 Evaluation Campaign

Ibrahim Said Ahmad†、Antonios Anastasopoulos††††、Ondřej Bojar¶、Claudia Borg††、Marine Carpuat‡、Roldano Cattoni§、Mauro Cettolo§、William Chen‡‡、Qianqian Dong¶¶、Marcello Federico§§、Barry Haddow‡‡‡、Dávid Javorsky¶、Mateusz Krubiński¶、Tsz Kin Lam‡‡‡、Xutai Ma‡‡§、Prashant Mathur§§、Evgeny Matusov¶¶¶、Chandresh