Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

苹果自然语言理解的研讨会2024

Apple Workshop on Natural Language Understanding 2024

自然语言处理中的进展可以实现与技术互动的更直观的方式。例如,苹果公司的许多产品和服务,包括Siri和搜索,使用自然的语言理解和生成来为用户提供流利而无缝的界面体验。自然语言是机器学习研究的一个快速移动的领域,包括跨多种语言,新颖的体系结构和算法以及新的评估制度的大规模数据策划的工作,所有这些都涉及隐私和安全的重要问题,以及……

幼苗:将LLM的重量压缩到伪随机发电机的种子

SeedLM: Compressing LLM Weights into Seeds of Pseudo-Random Generators

大型语言模型(LLM)已改变了自然语言处理,但是由于其运行时的成本很高,因此在广泛部署方面面临着巨大的挑战。在本文中,我们介绍了一种新型的培训后压缩方法,该方法使用伪随机生成器的种子来编码和压缩模型权重。具体而言,对于每个权重,请在推断过程中为被馈入线性反馈移位寄存器(LFSR)的种子,以有效地生成随机矩阵。然后将该矩阵与压缩系数线性结合,以重建重量块……

使用方向校正来解释和改善最佳控制问题

Interpreting and Improving Optimal Control Problems With Directional Corrections

许多机器人技术任务,例如路径规划或轨迹优化,被表达为最佳控制问题(OCP)。获得高性能的关键在于OCP目标函数的设计。实际上,目标函数由一组单个组件组成,必须仔细建模和交易,以使OCP具有所需的解决方案。平衡多个组件以实现所需的解决方案并了解解决方案时,通常是具有挑战性的,即在不希望的情况下会影响个人成本组件的影响。在本文中,我们提出一个框架…

私人统计估计的普遍实例 - 最佳机制

Universally Instance-Optimal Mechanisms for Private Statistical Estimation

我们考虑了在差异隐私的约束下,实例 - 最佳统计估计的问题,机制必须适应输入数据集的难度。我们证明了使用新的差异来确定实例特定的下限,并证明它是局部统计估计的局部最小值最佳率。我们提出了两种新的机制,这些机制在实例上是最佳的,对于对数因素而言,对于一般估计问题而言。我们的第一感机理,总变化机制,建立在指数机制上,总近似值……

相互加强LLM对话的综合和摘要功能,用于几个对话摘要

Mutual Reinforcement of LLM Dialogue Synthesis and Summarization Capabilities for Few-Shot Dialogue Summarization

在这项工作中,我们提出了LLMS中相互加强数据合成(MRDS),以改善几片对话摘要任务。与需要外部知识的先前方法不同,我们相互加强LLM的对话综合和摘要功能,从而使他们在培训期间可以相互补充并增强整体性能。对话综合能力通过定向偏好优化和摘要能力的偏好评分来增强。通过产生的其他高质量对话 - 苏姆及配对数据来增强汇总功能…

用标签差异对语音情绪进行建模,并分析跨说话者和看不见的声学条件

Modeling Speech Emotion With Label Variance and Analyzing Performance Across Speakers and Unseen Acoustic Conditions

自发的语音情感数据通常包含感知成绩,在听语音文件后,等级分配情感得分。由于级别的意见差异,这种感知等级引起了标签的不确定性。通过使用共识等级作为地面图,选择了最高投票的情绪,因此可以解决级别的变化,因此无法考虑含糊的情况,在这种情况下,语音样本可能包含多种情绪,如通过级别的意见不确定性所捕获的那样。我们证明,将情绪等级的概率密度函数作为…

韵律在口语中的作用回答

The Role of Prosody in Spoken Question Answering

口语理解迄今为止的研究通常具有沉重的文本视角。大多数数据集源自文本,然后将其合成到语音中,大多数模型通常依赖于语音的自动转录。这损害了韵律 - 语音信号所携带的添加信息超出了单词本身的语音,并且很难单独从文本中恢复。在这项工作中,我们调查了韵律在口头问题回答中的作用。通过在SLUE-SQA-5数据集上隔离韵律和词汇信息,该信息由…

氛围:一个视觉分析工作流程,用于子组级别CVML模型的语义错误分析

VibE: A Visual Analytics Workflow for Semantic Error Analysis of CVML Models at Subgroup Level

有效的错误分析对于成功开发和部署CVML模型至关重要。理解模型错误的一种方法是总结误差样本的共同特征。在利用非结构化,复杂数据(例如图像)的任务中,这可能尤其具有挑战性,而模式并不总是显而易见的。另一种方法是分析跨预定义类别的错误分布,这要求分析师提前假设潜在的错误原因。形成此类假设,无需访问明确的标签或注释,因此很难……

国际声学,语音和信号处理(ICASSP)2025

International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2025

Apple赞助了IEEE国际声学,语音和信号处理(ICASSP),该会议于4月6日至11日在印度海得拉巴举行。 ICASSP是信号处理及其应用领域的会议。以下是ICASSP 2025的苹果赞助研讨会和活动的时间表。

toolsandbox:LLM工具使用功能的状态,对话,交互式评估基准

ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities

最近的大型语言模型(LLMS)的进步引发了人们对工具协助LLMS解决现实世界挑战的越来越多的研究兴趣,该挑战要求对工具使用功能进行全面评估。虽然先前的作品重点是根据单个转弯用户提示进行评估对无状态的Web服务(RESTFUL API),或者是基于单个转弯的对话框轨迹,但ToolsAndbox包括已实行的工具执行,工具之间的隐式状态依赖关系,工具之间的内置用户模拟器,支持机上的对话评估和用于Intermediped和entermediped和最终的动态评估策略的内置用户模拟器

探索空空间:人类在循环数据增强

Exploring Empty Spaces: Human-in-the-Loop Data Augmentation

数据增强对于使机器学习模型更加强大和安全至关重要。但是,增强数据可能具有挑战性,因为它需要生成各种数据点以严格评估边缘案例的模型行为并减轻潜在危害。创建涵盖这些“未知未知数”的高质量增强是一项时间和创造力的任务。在这项工作中,我们介绍了Amplio,这是一种交互式工具,可帮助从业者在非结构化文本数据集中导航“未知未知数”,并通过系统地识别空的数据空间来探索来改善数据多样性。 amplio…

评估文本2SQL解决方案并检测其局限性的基本挑战

Fundamental Challenges in Evaluating Text2SQL Solutions and Detecting Their Limitations

在这项工作中,我们深入研究了评估文本2SQL解决方案并突出潜在的故障原因以及依靠现有基准中总指标的潜在风险的基本挑战。我们确定当前开放基准中的两个很大程度上未解决的局限性:(1)评估数据中的数据质量问题主要归因于缺乏将自然语言描述转化为结构化查询的概率性质(例如,NL模糊性),以及(2)使用不同匹配的偏见,可以

Univg:统一图像生成和编辑的通才扩散模型

UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing

文本对图像(T2I)扩散模型在以用户提示后生成视觉吸引人的图像时显示出令人印象深刻的结果。在此基础上,各种方法进一步调整了针对特定任务的预训练的T2I模型。但是,这需要单独的模型体系结构,培训设计和多个参数集来处理不同的任务。在本文中,我们介绍了Univg,这是一个通才扩散模型,该模型能够支持具有一组权重的各种图像生成任务。 Univg将多模式输入视为统一条件,以使各种下游……

探索语音基础模型的蒙版预训练中的预测目标

Exploring Prediction Targets in Masked Pre-Training for Speech Foundation Models

语音基础模型,例如Hubert及其变体,在大量未标记的语音数据上进行了预训练,然后用于一系列下游任务。这些模型使用蒙版的预测目标,该模型学会了从未掩盖的上下文中预测有关掩盖输入段的信息。在此框架中的预测目标的选择会影响其在下游任务上的性能。例如,通过捕获韵律的目标进行预训练的模型学习适合与说话者相关的任务的表示形式,而那些预先训练的目标是捕获语音学的目标……

Visatronic:语音合成的一种多模式解码器模型

Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis

在本文中,我们提出了一项新任务 - 从人及其成绩单(VTT)视频中产生语音 - 以激发多模式语音生成的新技术。这项任务概括了从裁剪唇部视频中生成语音的任务,并且比从视频和文字中生成通用音频剪辑(例如,狗吠叫)的任务还要复杂。任务的多语言版本可能会导致跨语性配音的新技术。我们还为此任务提供了一个仅解码器的多模式模型,我们称之为Visatronic。该模型直接嵌入视觉,文字和语音……

有效而流媒体的视觉视觉主动扬声器检测系统

An Efficient and Streaming Audio Visual Active Speaker Detection System

本文深入研究了主动扬声器检测(ASD)的具有挑战性的任务,在该任务中,系统需要实时确定一个人是否在一系列视频框架中说话。尽管以前的作品在改善网络体系结构和学习有效表示ASD方面取得了长足的进步,但在探索实时系统部署方面存在着一个关键的差距。现有的模型通常会遭受高潜伏期和内存使用量的损失,使它们在直接应用中不切实际。为了弥合这一差距,我们提出了两个解决关键挑战的情况……

预测变量何时知道自己的损失?

When Does a Predictor Know Its Own Loss?

给出了一个预测因子和损失函数,我们可以如何预测预测因子在输入上产生的损失?这是损失预测的问题,这是一个与预测变量的不确定性估计相关的关键计算任务。在分类环境中,预测变量通常会预测标签上的分布,因此对预测分布的熵给出了其将造成的损失的估计。我们应该相信这个估计吗?换句话说,预测变量什么时候知道它知道的以及它不知道的知识?在这项工作中,我们研究理论……

朝着具有非手动标记的AI驱动的手语产生

Towards AI-Driven Sign Language Generation with Non-Manual Markers

标志语言对于聋哑和听力障碍(DHH)社区至关重要。手语的生成系统有可能通过将英语等书面语言转换为签名视频来支持交流。但是,由于语法结构的不良翻译,缺乏面部提示和肢体语言以及视觉和运动保真度不足,当前系统通常无法满足用户需求。我们通过基于LLM和视频生成模型的最新进展来解决这些挑战,以将英语句子转化为自然的AI ASL签名者。文字…