Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

探索语音基础模型的蒙版预训练中的预测目标

Exploring Prediction Targets in Masked Pre-Training for Speech Foundation Models

语音基础模型,例如Hubert及其变体,在大量未标记的语音数据上进行了预训练,然后用于一系列下游任务。这些模型使用蒙版的预测目标,该模型学会了从未掩盖的上下文中预测有关掩盖输入段的信息。在此框架中的预测目标的选择会影响其在下游任务上的性能。例如,通过捕获韵律的目标进行预训练的模型学习适合与说话者相关的任务的表示形式,而那些预先训练的目标是捕获语音学的目标……

Visatronic:语音合成的一种多模式解码器模型

Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis

在本文中,我们提出了一项新任务 - 从人及其成绩单(VTT)视频中产生语音 - 以激发多模式语音生成的新技术。这项任务概括了从裁剪唇部视频中生成语音的任务,并且比从视频和文字中生成通用音频剪辑(例如,狗吠叫)的任务还要复杂。任务的多语言版本可能会导致跨语性配音的新技术。我们还为此任务提供了一个仅解码器的多模式模型,我们称之为Visatronic。该模型直接嵌入视觉,文字和语音……

有效而流媒体的视觉视觉主动扬声器检测系统

An Efficient and Streaming Audio Visual Active Speaker Detection System

本文深入研究了主动扬声器检测(ASD)的具有挑战性的任务,在该任务中,系统需要实时确定一个人是否在一系列视频框架中说话。尽管以前的作品在改善网络体系结构和学习有效表示ASD方面取得了长足的进步,但在探索实时系统部署方面存在着一个关键的差距。现有的模型通常会遭受高潜伏期和内存使用量的损失,使它们在直接应用中不切实际。为了弥合这一差距,我们提出了两个解决关键挑战的情况……

预测变量何时知道自己的损失?

When Does a Predictor Know Its Own Loss?

给出了一个预测因子和损失函数,我们可以如何预测预测因子在输入上产生的损失?这是损失预测的问题,这是一个与预测变量的不确定性估计相关的关键计算任务。在分类环境中,预测变量通常会预测标签上的分布,因此对预测分布的熵给出了其将造成的损失的估计。我们应该相信这个估计吗?换句话说,预测变量什么时候知道它知道的以及它不知道的知识?在这项工作中,我们研究理论……

朝着具有非手动标记的AI驱动的手语产生

Towards AI-Driven Sign Language Generation with Non-Manual Markers

标志语言对于聋哑和听力障碍(DHH)社区至关重要。手语的生成系统有可能通过将英语等书面语言转换为签名视频来支持交流。但是,由于语法结构的不良翻译,缺乏面部提示和肢体语言以及视觉和运动保真度不足,当前系统通常无法满足用户需求。我们通过基于LLM和视频生成模型的最新进展来解决这些挑战,以将英语句子转化为自然的AI ASL签名者。文字…

DR-MPC:真实社会导航的深度残留模型预测控制

DR-MPC: Deep Residual Model Predictive Control for Real-World Social Navigation

机器人如何安全地在表现出复杂运动模式的人们周围驾驶?模拟中的强化学习(RL)或深RL(DRL)具有一些希望,尽管许多先前的工作取决于模拟器无法精确地捕获真实人类运动的细微差别。为了解决这一差距,我们提出了深层剩余模型预测控制(DR-MPC),这是一种使机器人能够快速安全地从现实世界人群导航数据中执行DRL的方法。通过将MPC与无模型DRL融合,DR-MPC克服了大数据要求和不安全初始行为的传统DRL挑战。 DR-MPC…

SELMA:虚拟助手互动的语言语言模型

SELMA: A Speech-Enabled Language Model for Virtual Assistant Interactions

在这项工作中,我们介绍和评估Selma,这是一个针对虚拟助手交互的语言语言模型,将音频和文本集成为大型语言模型(LLM)的输入。 Selma旨在处理与单个端到端模型中同时与虚拟助手相互作用相关的三个主要和两个辅助任务。我们采用低级适应模块来对音频编码器和LLM进行参数效率训练。此外,我们实施了一个功能汇总策略,使系统能够识别全球模式并提高任务的准确性……

在边境模型中是否出现空间认知?

Does Spatial Cognition Emerge in Frontier Models?

还没有。我们提出空间,这是一个系统地评估边境模型中空间认知的基准。我们的基准基于认知科学的数十年研究。它评估了当生物体穿越物理环境,对物体形状和布局的较小规模的推理以及认知基础架构(如空间注意力和记忆)时,它会带来的大规模映射能力。对于许多任务,我们通过文本和图像实例化并行演示,使我们能够基准大型语言模型和大型多模式模型。结果表明…

Speaker-ipl:使用基于I-矢量的伪标签

Speaker-IPL: Unsupervised Learning of Speaker Characteristics with i-Vector Based Pseudo-Labels

使用当前迭代的改进模型为下一次迭代提供伪标记 - 已被证明是提高说话者表示质量的有力方法。 IPL在无监督的说话者识别中的最新应用是从非常复杂的自我监管方法(例如Dino)中提取的表示开始。但是,培训如此强大的自我监督模型并不是直接的(它们需要高参数调整,并且可能不会推广到室外数据),而且可能不是……

M2R2:有效变压器推理的多率残差的混合物

M2R2: Mixture of Multi-Rate Residuals for Efficient Transformer Inference

残差转换增强了大语言模型(LLMS)的代表性深度和表达能力。但是,在自动回归产生中应用所有代币的静态残差转换会导致推理效率和产生忠诚度之间的次优折衷。现有方法,包括早期退出,跳过解码和深入的混合物,通过根据令牌级的复杂性调节剩余转换来解决此问题。尽管如此,这些方法主要考虑由代币通过模型层所穿越的距离,忽略了…

使用等级自动评估自我监督的语音模型

Towards Automatic Assessment of Self-Supervised Speech Models Using Rank

这项研究使用嵌入式等级探讨了通过自我监督学习(SSL)训练的通用语音编码器的无监督评估度量。传统上,评估这些编码器的性能是资源密集的,需要从下游任务中标记的数据。受视觉域的启发,嵌入等级显示了评估图像编码器的希望,而无需对标记的下游数据进行调整,因此考虑到信号的时间性质,研究了其在语音域中的适用性。这些发现表明等级与下游相关……

MM1.5:多模式LLM微调

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-Tuning

我们提出了MM1.5,这是一个新的多模式大语言模型(MLLMS),旨在增强文本丰富的图像理解,视觉参考和接地以及多图像推理的能力。在MM1体系结构的基础上,MM1.5采用了以数据为中心的方法来模型培训,系统地探索了整个模型培训生命周期中各种数据混合物的影响。这包括用于连续预训练的高质量OCR数据和合成字幕,以及用于监督微调的优化视觉指导数据混合物。我们的型号范围为1B…

dmel:语音令牌化变得简单

dMel: Speech Tokenization Made Simple

大型语言模型通过利用自我监督的大量文本数据预处理来彻底改变了自然语言处理。受到这一成功的启发,研究人员研究了复杂的语音令牌化方法,以离散连续的语音信号,以便将语言建模技术应用于语音数据。但是,现有方法要么模型语义(内容)令牌,可能会丢失声学信息或模型声音令牌,从而冒着语义(内容)信息丢失的风险。拥有多种令牌类型也使体系结构复杂化,并且需要……

具有像素空间扩散模型的新型视图合成

Novel View Synthesis with Pixel-Space Diffusion Models

从单个输入图像中综合新的视图是一项具有挑战性的任务。传统上,通过估计场景深度,扭曲和钻孔来完成此任务,并通过机器学习模型实现了管道的一部分。最近,在新型视图合成(NVS)中越来越多地使用了生成模型,通常包含整个端到端系统。在这项工作中,我们适应了现代扩散模型体系结构,用于像素空间中的端到端NV,从而大大优于先前的最新技术(SOTA)技术。我们探索了编码几何的不同方法…

mia bench:在评估多模式LLMS

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs

我们介绍了MIA Bench,这是一种新的基准测试,旨在评估多模式大型语言模型(MLLM),以严格遵守复杂的说明。我们的基准包括一组400个图像推出对,每个基准都旨在挑战模型对分层指令的遵守,以产生满足特定要求的模式的准确响应。各种各样的最先进的MLLM的评估结果显示出绩效的显着差异,突出了改善教学保真度的领域。此外,我们创建了额外的培训数据和…

通过模仿模型权重评估样品实用程序以进行数据选择

Evaluating Sample Utility for Data Selection by Mimicking Model Weights

基础模型经过大规模网络爬行数据集的培训,这些数据集通常包含噪声,偏见和无关的信息。这激发了数据选择技术的使用,这些技术可以分为无模型的变体 - 依靠启发式规则和下游数据集 - 以及基于模型的模型,例如使用影响功能。前者设计和冒险引入不必要的依赖性可能是昂贵的,而后者通常在计算上是过于刺激的。相反,我们建议使用MIMIC分数(一种利用…

可穿戴加速度计通过知识蒸馏

Wearable Accelerometer Foundation Models for Health via Knowledge Distillation

现代可穿戴设备可以方便地在日常生活的许多不同环境中记录各种生物信号,从而可以对个人健康有丰富的看法。但是,并非所有的生物信号都相同:高保真生物信号(例如Photoplethymbogram图(PPG))包含更多的生理信息,但需要具有高功率足迹的光传感器。另外,诸如加速度计之类的低保真生物信号具有明显较小的功率足迹,并且几乎在任何可穿戴设备中都可以使用。虽然加速度计广泛用于活动识别和健身,但它较少……

接地在动作中的多模式大语模型

Grounding Multimodal Large Language Models in Actions

多模式大语言模型(MLLM)已证明了包括体现AI在内的许多领域的广泛功能。在这项工作中,我们研究了如何将MLLM最佳地扎根于不同的实施方案及其相关的作用空间,以利用MLLM的多模式世界知识。我们首先通过统一体系结构和动作空间适配器的镜头概括了许多方法。对于连续的动作,我们表明,学识渊博的令牌化可以实现足够的建模精度,从而在下游任务上产生最佳性能。对于离散的动作…