The Role of Prosody in Spoken Question Answering
口语理解迄今为止的研究通常具有沉重的文本视角。大多数数据集源自文本,然后将其合成到语音中,大多数模型通常依赖于语音的自动转录。这损害了韵律 - 语音信号所携带的添加信息超出了单词本身的语音,并且很难单独从文本中恢复。在这项工作中,我们调查了韵律在口头问题回答中的作用。通过在SLUE-SQA-5数据集上隔离韵律和词汇信息,该信息由…
VibE: A Visual Analytics Workflow for Semantic Error Analysis of CVML Models at Subgroup Level
有效的错误分析对于成功开发和部署CVML模型至关重要。理解模型错误的一种方法是总结误差样本的共同特征。在利用非结构化,复杂数据(例如图像)的任务中,这可能尤其具有挑战性,而模式并不总是显而易见的。另一种方法是分析跨预定义类别的错误分布,这要求分析师提前假设潜在的错误原因。形成此类假设,无需访问明确的标签或注释,因此很难……
International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2025
Apple赞助了IEEE国际声学,语音和信号处理(ICASSP),该会议于4月6日至11日在印度海得拉巴举行。 ICASSP是信号处理及其应用领域的会议。以下是ICASSP 2025的苹果赞助研讨会和活动的时间表。
最近的大型语言模型(LLMS)的进步引发了人们对工具协助LLMS解决现实世界挑战的越来越多的研究兴趣,该挑战要求对工具使用功能进行全面评估。虽然先前的作品重点是根据单个转弯用户提示进行评估对无状态的Web服务(RESTFUL API),或者是基于单个转弯的对话框轨迹,但ToolsAndbox包括已实行的工具执行,工具之间的隐式状态依赖关系,工具之间的内置用户模拟器,支持机上的对话评估和用于Intermediped和entermediped和最终的动态评估策略的内置用户模拟器
Exploring Empty Spaces: Human-in-the-Loop Data Augmentation
数据增强对于使机器学习模型更加强大和安全至关重要。但是,增强数据可能具有挑战性,因为它需要生成各种数据点以严格评估边缘案例的模型行为并减轻潜在危害。创建涵盖这些“未知未知数”的高质量增强是一项时间和创造力的任务。在这项工作中,我们介绍了Amplio,这是一种交互式工具,可帮助从业者在非结构化文本数据集中导航“未知未知数”,并通过系统地识别空的数据空间来探索来改善数据多样性。 amplio…
Fundamental Challenges in Evaluating Text2SQL Solutions and Detecting Their Limitations
在这项工作中,我们深入研究了评估文本2SQL解决方案并突出潜在的故障原因以及依靠现有基准中总指标的潜在风险的基本挑战。我们确定当前开放基准中的两个很大程度上未解决的局限性:(1)评估数据中的数据质量问题主要归因于缺乏将自然语言描述转化为结构化查询的概率性质(例如,NL模糊性),以及(2)使用不同匹配的偏见,可以
UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing
文本对图像(T2I)扩散模型在以用户提示后生成视觉吸引人的图像时显示出令人印象深刻的结果。在此基础上,各种方法进一步调整了针对特定任务的预训练的T2I模型。但是,这需要单独的模型体系结构,培训设计和多个参数集来处理不同的任务。在本文中,我们介绍了Univg,这是一个通才扩散模型,该模型能够支持具有一组权重的各种图像生成任务。 Univg将多模式输入视为统一条件,以使各种下游……
Exploring Prediction Targets in Masked Pre-Training for Speech Foundation Models
语音基础模型,例如Hubert及其变体,在大量未标记的语音数据上进行了预训练,然后用于一系列下游任务。这些模型使用蒙版的预测目标,该模型学会了从未掩盖的上下文中预测有关掩盖输入段的信息。在此框架中的预测目标的选择会影响其在下游任务上的性能。例如,通过捕获韵律的目标进行预训练的模型学习适合与说话者相关的任务的表示形式,而那些预先训练的目标是捕获语音学的目标……
Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis
在本文中,我们提出了一项新任务 - 从人及其成绩单(VTT)视频中产生语音 - 以激发多模式语音生成的新技术。这项任务概括了从裁剪唇部视频中生成语音的任务,并且比从视频和文字中生成通用音频剪辑(例如,狗吠叫)的任务还要复杂。任务的多语言版本可能会导致跨语性配音的新技术。我们还为此任务提供了一个仅解码器的多模式模型,我们称之为Visatronic。该模型直接嵌入视觉,文字和语音……
An Efficient and Streaming Audio Visual Active Speaker Detection System
本文深入研究了主动扬声器检测(ASD)的具有挑战性的任务,在该任务中,系统需要实时确定一个人是否在一系列视频框架中说话。尽管以前的作品在改善网络体系结构和学习有效表示ASD方面取得了长足的进步,但在探索实时系统部署方面存在着一个关键的差距。现有的模型通常会遭受高潜伏期和内存使用量的损失,使它们在直接应用中不切实际。为了弥合这一差距,我们提出了两个解决关键挑战的情况……
When Does a Predictor Know Its Own Loss?
给出了一个预测因子和损失函数,我们可以如何预测预测因子在输入上产生的损失?这是损失预测的问题,这是一个与预测变量的不确定性估计相关的关键计算任务。在分类环境中,预测变量通常会预测标签上的分布,因此对预测分布的熵给出了其将造成的损失的估计。我们应该相信这个估计吗?换句话说,预测变量什么时候知道它知道的以及它不知道的知识?在这项工作中,我们研究理论……
Towards AI-Driven Sign Language Generation with Non-Manual Markers
标志语言对于聋哑和听力障碍(DHH)社区至关重要。手语的生成系统有可能通过将英语等书面语言转换为签名视频来支持交流。但是,由于语法结构的不良翻译,缺乏面部提示和肢体语言以及视觉和运动保真度不足,当前系统通常无法满足用户需求。我们通过基于LLM和视频生成模型的最新进展来解决这些挑战,以将英语句子转化为自然的AI ASL签名者。文字…
DR-MPC: Deep Residual Model Predictive Control for Real-World Social Navigation
机器人如何安全地在表现出复杂运动模式的人们周围驾驶?模拟中的强化学习(RL)或深RL(DRL)具有一些希望,尽管许多先前的工作取决于模拟器无法精确地捕获真实人类运动的细微差别。为了解决这一差距,我们提出了深层剩余模型预测控制(DR-MPC),这是一种使机器人能够快速安全地从现实世界人群导航数据中执行DRL的方法。通过将MPC与无模型DRL融合,DR-MPC克服了大数据要求和不安全初始行为的传统DRL挑战。 DR-MPC…
Towards Automatic Assessment of Self-Supervised Speech Models Using Rank
这项研究使用嵌入式等级探讨了通过自我监督学习(SSL)训练的通用语音编码器的无监督评估度量。传统上,评估这些编码器的性能是资源密集的,需要从下游任务中标记的数据。受视觉域的启发,嵌入等级显示了评估图像编码器的希望,而无需对标记的下游数据进行调整,因此考虑到信号的时间性质,研究了其在语音域中的适用性。这些发现表明等级与下游相关……
Speaker-IPL: Unsupervised Learning of Speaker Characteristics with i-Vector Based Pseudo-Labels
使用当前迭代的改进模型为下一次迭代提供伪标记 - 已被证明是提高说话者表示质量的有力方法。 IPL在无监督的说话者识别中的最新应用是从非常复杂的自我监管方法(例如Dino)中提取的表示开始。但是,培训如此强大的自我监督模型并不是直接的(它们需要高参数调整,并且可能不会推广到室外数据),而且可能不是……
Does Spatial Cognition Emerge in Frontier Models?
还没有。我们提出空间,这是一个系统地评估边境模型中空间认知的基准。我们的基准基于认知科学的数十年研究。它评估了当生物体穿越物理环境,对物体形状和布局的较小规模的推理以及认知基础架构(如空间注意力和记忆)时,它会带来的大规模映射能力。对于许多任务,我们通过文本和图像实例化并行演示,使我们能够基准大型语言模型和大型多模式模型。结果表明…
SELMA: A Speech-Enabled Language Model for Virtual Assistant Interactions
在这项工作中,我们介绍和评估Selma,这是一个针对虚拟助手交互的语言语言模型,将音频和文本集成为大型语言模型(LLM)的输入。 Selma旨在处理与单个端到端模型中同时与虚拟助手相互作用相关的三个主要和两个辅助任务。我们采用低级适应模块来对音频编码器和LLM进行参数效率训练。此外,我们实施了一个功能汇总策略,使系统能够识别全球模式并提高任务的准确性……
M2R2: Mixture of Multi-Rate Residuals for Efficient Transformer Inference
残差转换增强了大语言模型(LLMS)的代表性深度和表达能力。但是,在自动回归产生中应用所有代币的静态残差转换会导致推理效率和产生忠诚度之间的次优折衷。现有方法,包括早期退出,跳过解码和深入的混合物,通过根据令牌级的复杂性调节剩余转换来解决此问题。尽管如此,这些方法主要考虑由代币通过模型层所穿越的距离,忽略了…