Apple Workshop on Natural Language Understanding 2024
自然语言处理中的进展可以实现与技术互动的更直观的方式。例如,苹果公司的许多产品和服务,包括Siri和搜索,使用自然的语言理解和生成来为用户提供流利而无缝的界面体验。自然语言是机器学习研究的一个快速移动的领域,包括跨多种语言,新颖的体系结构和算法以及新的评估制度的大规模数据策划的工作,所有这些都涉及隐私和安全的重要问题,以及……
SeedLM: Compressing LLM Weights into Seeds of Pseudo-Random Generators
大型语言模型(LLM)已改变了自然语言处理,但是由于其运行时的成本很高,因此在广泛部署方面面临着巨大的挑战。在本文中,我们介绍了一种新型的培训后压缩方法,该方法使用伪随机生成器的种子来编码和压缩模型权重。具体而言,对于每个权重,请在推断过程中为被馈入线性反馈移位寄存器(LFSR)的种子,以有效地生成随机矩阵。然后将该矩阵与压缩系数线性结合,以重建重量块……
Interpreting and Improving Optimal Control Problems With Directional Corrections
许多机器人技术任务,例如路径规划或轨迹优化,被表达为最佳控制问题(OCP)。获得高性能的关键在于OCP目标函数的设计。实际上,目标函数由一组单个组件组成,必须仔细建模和交易,以使OCP具有所需的解决方案。平衡多个组件以实现所需的解决方案并了解解决方案时,通常是具有挑战性的,即在不希望的情况下会影响个人成本组件的影响。在本文中,我们提出一个框架…
Universally Instance-Optimal Mechanisms for Private Statistical Estimation
我们考虑了在差异隐私的约束下,实例 - 最佳统计估计的问题,机制必须适应输入数据集的难度。我们证明了使用新的差异来确定实例特定的下限,并证明它是局部统计估计的局部最小值最佳率。我们提出了两种新的机制,这些机制在实例上是最佳的,对于对数因素而言,对于一般估计问题而言。我们的第一感机理,总变化机制,建立在指数机制上,总近似值……
在这项工作中,我们提出了LLMS中相互加强数据合成(MRDS),以改善几片对话摘要任务。与需要外部知识的先前方法不同,我们相互加强LLM的对话综合和摘要功能,从而使他们在培训期间可以相互补充并增强整体性能。对话综合能力通过定向偏好优化和摘要能力的偏好评分来增强。通过产生的其他高质量对话 - 苏姆及配对数据来增强汇总功能…
自发的语音情感数据通常包含感知成绩,在听语音文件后,等级分配情感得分。由于级别的意见差异,这种感知等级引起了标签的不确定性。通过使用共识等级作为地面图,选择了最高投票的情绪,因此可以解决级别的变化,因此无法考虑含糊的情况,在这种情况下,语音样本可能包含多种情绪,如通过级别的意见不确定性所捕获的那样。我们证明,将情绪等级的概率密度函数作为…
The Role of Prosody in Spoken Question Answering
口语理解迄今为止的研究通常具有沉重的文本视角。大多数数据集源自文本,然后将其合成到语音中,大多数模型通常依赖于语音的自动转录。这损害了韵律 - 语音信号所携带的添加信息超出了单词本身的语音,并且很难单独从文本中恢复。在这项工作中,我们调查了韵律在口头问题回答中的作用。通过在SLUE-SQA-5数据集上隔离韵律和词汇信息,该信息由…
VibE: A Visual Analytics Workflow for Semantic Error Analysis of CVML Models at Subgroup Level
有效的错误分析对于成功开发和部署CVML模型至关重要。理解模型错误的一种方法是总结误差样本的共同特征。在利用非结构化,复杂数据(例如图像)的任务中,这可能尤其具有挑战性,而模式并不总是显而易见的。另一种方法是分析跨预定义类别的错误分布,这要求分析师提前假设潜在的错误原因。形成此类假设,无需访问明确的标签或注释,因此很难……
International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2025
Apple赞助了IEEE国际声学,语音和信号处理(ICASSP),该会议于4月6日至11日在印度海得拉巴举行。 ICASSP是信号处理及其应用领域的会议。以下是ICASSP 2025的苹果赞助研讨会和活动的时间表。
最近的大型语言模型(LLMS)的进步引发了人们对工具协助LLMS解决现实世界挑战的越来越多的研究兴趣,该挑战要求对工具使用功能进行全面评估。虽然先前的作品重点是根据单个转弯用户提示进行评估对无状态的Web服务(RESTFUL API),或者是基于单个转弯的对话框轨迹,但ToolsAndbox包括已实行的工具执行,工具之间的隐式状态依赖关系,工具之间的内置用户模拟器,支持机上的对话评估和用于Intermediped和entermediped和最终的动态评估策略的内置用户模拟器
Exploring Empty Spaces: Human-in-the-Loop Data Augmentation
数据增强对于使机器学习模型更加强大和安全至关重要。但是,增强数据可能具有挑战性,因为它需要生成各种数据点以严格评估边缘案例的模型行为并减轻潜在危害。创建涵盖这些“未知未知数”的高质量增强是一项时间和创造力的任务。在这项工作中,我们介绍了Amplio,这是一种交互式工具,可帮助从业者在非结构化文本数据集中导航“未知未知数”,并通过系统地识别空的数据空间来探索来改善数据多样性。 amplio…
Fundamental Challenges in Evaluating Text2SQL Solutions and Detecting Their Limitations
在这项工作中,我们深入研究了评估文本2SQL解决方案并突出潜在的故障原因以及依靠现有基准中总指标的潜在风险的基本挑战。我们确定当前开放基准中的两个很大程度上未解决的局限性:(1)评估数据中的数据质量问题主要归因于缺乏将自然语言描述转化为结构化查询的概率性质(例如,NL模糊性),以及(2)使用不同匹配的偏见,可以
UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing
文本对图像(T2I)扩散模型在以用户提示后生成视觉吸引人的图像时显示出令人印象深刻的结果。在此基础上,各种方法进一步调整了针对特定任务的预训练的T2I模型。但是,这需要单独的模型体系结构,培训设计和多个参数集来处理不同的任务。在本文中,我们介绍了Univg,这是一个通才扩散模型,该模型能够支持具有一组权重的各种图像生成任务。 Univg将多模式输入视为统一条件,以使各种下游……
Exploring Prediction Targets in Masked Pre-Training for Speech Foundation Models
语音基础模型,例如Hubert及其变体,在大量未标记的语音数据上进行了预训练,然后用于一系列下游任务。这些模型使用蒙版的预测目标,该模型学会了从未掩盖的上下文中预测有关掩盖输入段的信息。在此框架中的预测目标的选择会影响其在下游任务上的性能。例如,通过捕获韵律的目标进行预训练的模型学习适合与说话者相关的任务的表示形式,而那些预先训练的目标是捕获语音学的目标……
Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis
在本文中,我们提出了一项新任务 - 从人及其成绩单(VTT)视频中产生语音 - 以激发多模式语音生成的新技术。这项任务概括了从裁剪唇部视频中生成语音的任务,并且比从视频和文字中生成通用音频剪辑(例如,狗吠叫)的任务还要复杂。任务的多语言版本可能会导致跨语性配音的新技术。我们还为此任务提供了一个仅解码器的多模式模型,我们称之为Visatronic。该模型直接嵌入视觉,文字和语音……
An Efficient and Streaming Audio Visual Active Speaker Detection System
本文深入研究了主动扬声器检测(ASD)的具有挑战性的任务,在该任务中,系统需要实时确定一个人是否在一系列视频框架中说话。尽管以前的作品在改善网络体系结构和学习有效表示ASD方面取得了长足的进步,但在探索实时系统部署方面存在着一个关键的差距。现有的模型通常会遭受高潜伏期和内存使用量的损失,使它们在直接应用中不切实际。为了弥合这一差距,我们提出了两个解决关键挑战的情况……
When Does a Predictor Know Its Own Loss?
给出了一个预测因子和损失函数,我们可以如何预测预测因子在输入上产生的损失?这是损失预测的问题,这是一个与预测变量的不确定性估计相关的关键计算任务。在分类环境中,预测变量通常会预测标签上的分布,因此对预测分布的熵给出了其将造成的损失的估计。我们应该相信这个估计吗?换句话说,预测变量什么时候知道它知道的以及它不知道的知识?在这项工作中,我们研究理论……
Towards AI-Driven Sign Language Generation with Non-Manual Markers
标志语言对于聋哑和听力障碍(DHH)社区至关重要。手语的生成系统有可能通过将英语等书面语言转换为签名视频来支持交流。但是,由于语法结构的不良翻译,缺乏面部提示和肢体语言以及视觉和运动保真度不足,当前系统通常无法满足用户需求。我们通过基于LLM和视频生成模型的最新进展来解决这些挑战,以将英语句子转化为自然的AI ASL签名者。文字…