Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

用于设备定向语音检测的融合低秩自适应多模态大型语言模型

Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech Detection

虽然大型语言模型 (LLM) 已显示出实现类似人类对话的前景,但它们主要是在文本数据上进行预训练的。结合音频或视频可以提高性能,但收集大规模多模态数据和预训练多模态 LLM 具有挑战性。为此,我们提出了一种融合低秩自适应 (FLoRA) 技术,该技术可以有效地调整预训练的单模态 LLM,通过低秩自适应来使用新的、以前未见过的模态。对于设备导向的语音检测,使用 FLoRA,多模态 LLM 实现了相等错误率 (EER) 相对降低 22% ......

个性化语音活动检测系统的比较分析:评估现实世界的有效性

Comparative Analysis of Personalized Voice Activity Detection Systems: Assessing Real-World Effectiveness

语音活动检测 (VAD) 是语音识别、说话人识别和免提通信系统等各种应用中的关键组件。随着对个性化和情境感知技术的需求不断增长,对有效的个性化 VAD 系统的需求变得至关重要。在本文中,我们对个性化语音活动检测 (PVAD) 系统进行了比较分析,以评估其在现实世界中的有效性。我们引入了一种全面的方法来评估 PVAD 系统,结合了各种性能指标,例如帧级和……

使用大型语言模型为虚拟助手生成合成查询

Synthetic Query Generation using Large Language Models for Virtual Assistants

这篇论文被 SIGIR 2024 的行业轨道所接受。虚拟助手 (VA) 是重要的信息检索平台,可帮助用户通过口头命令完成各种任务。语音识别系统 (语音转文本) 使用仅对文本进行训练的查询先验来区分语音上令人困惑的替代方案。因此,生成类似于现有 VA 用法的合成查询可以极大地提高 VA 的能力 - 尤其是对于配对音频/文本数据中尚未出现的用例。在本文中,我们提供了初步探索……

通过高效微调进行时间敏感知识编辑

Time Sensitive Knowledge Editing through Efficient Finetuning

大型语言模型 (LLM) 在不同任务中表现出令人印象深刻的能力,并为许多领域带来了变革性的变化。然而,在预训练完成后,保持 LLM 中的知识最新仍然是一个挑战。因此,设计有效的方法来更新过时的知识并将新知识引入 LLM 至关重要。现有的定位和编辑知识编辑 (KE) 方法存在两个局限性。首先,通过此类方法编辑后的 ​​LLM 通常无法很好地回答需要多跳推理的复杂查询。其次,…

为虚拟助手提供以口语实体为中心的知识查询的服务器端重新评分

Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants

由自动语音识别 (ASR) 提供支持的设备虚拟助手需要有效的知识整合才能完成具有挑战性的实体丰富的查询识别。在本文中,我们使用各种类别的语言模型(N-Gram 词语言模型、子词神经 LM)对服务器端重新评分口头信息域查询的建模策略进行了实证研究。我们研究了设备上和服务器端信号的组合,并通过集成各种服务器端信号,在各种以实体为中心的查询子群体中展示了 23%-35% 的显着 WER 改进……

基于 Transformer 的 ASR N-Best 重新评分和重写模型

Transformer-based Model for ASR N-Best Rescoring and Rewriting

语音助手越来越多地使用设备上的自动语音识别 (ASR) 来确保速度和隐私。然而,由于设备的资源限制,涉及复杂信息域的查询通常需要搜索引擎进一步处理。对于这样的应用,我们提出了一种基于 Transformer 的新型模型,该模型能够通过并行探索 N 个最佳假设的完整上下文来重新评分和重写。我们还提出了一种新的判别序列训练目标,它可以很好地用于重新评分和重写任务。我们表明我们的 Rescore+Rewrite 模型优于……

用于将 ASR 个性化为非典型语音的超网络

Hypernetworks for Personalizing ASR to Atypical Speech

*平等贡献者用于个性化自动语音识别 (ASR) 的参数高效微调 (PEFT) 最近显示出将一般人群模型适应非典型语音的前景。然而,这些方法假设对所适应的非典型言语障碍有先验知识——诊断这种障碍需要专业知识,而这些知识并不总是可用的。即使有了这些知识,数据稀缺性和说话者之间/说话者内部的高差异性也进一步限制了传统微调的有效性。为了规避这些挑战,我们首先确定模型的最小集……

改进的联邦建模使用狄利克雷多项式混合的数据集

Improved Modelling of Federated Datasets using Mixtures-of-Dirichlet-Multinomials

实际上,使用联邦学习进行训练的速度可能比标准集中式训练慢几个数量级。这严重限制了可以进行的实验和调整的数量,使得在给定任务上获得良好性能变得具有挑战性。服务器端代理数据可用于运行训练模拟,例如用于超参数调整。这可以通过减少在真实客户端上执行的调整运行次数来大大加快训练流程。然而,确保这些模拟准确反映动态是一项挑战……