Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

2024 年国际 ACM 信息检索研究与开发会议 (SIGIR)

International ACM Conference on Research and Development in Information Retrieval (SIGIR) 2024

Apple 赞助了国际 ACM 信息检索研究与开发会议 (SIGIR),该会议将于 7 月 14 日至 18 日在华盛顿特区举行。SIGIR 是一个国际论坛,专注于展示信息检索领域的新研究。以下是 SIGIR 2024 上接受的 Apple 论文。

Transformers 推理能力有多强?局部屏障和归纳便笺簿

How Far Can Transformers Reason? The Locality Barrier and Inductive Scratchpad

Transformers 能否通过组合已建立的三段论来预测新的三段论?更一般地说,这些模型可以从头开始学习什么类型的目标?最近的研究表明,Transformers 在表达能力方面可以是图灵完备的,但这并没有解决可学习性目标。本文提出了分布局部性的概念,以捕捉常规 Transformers 何时可以有效实现弱学习,其中局部性除了标记直方图之外还测量与目标非平凡相关的所需最少标记数。如实验所示……

重新审视不可分二元分类及其在异常检测中的应用

Revisiting Non-separable Binary Classification and its Applications in Anomaly Detection

无法线性分类 XOR 激发了深度学习的大部分动力。我们重新审视这个古老的问题,并表明 XOR 的线性分类确实是可能的。我们提出了一个略有不同的范例,即等式分离,而不是在半空间之间分离数据,该范例可调整 SVM 目标以区分边际内或边际外的数据。然后,我们的分类器可以以平滑的近似值集成到神经网络管道中。从其属性来看,我们直觉地认为等式分离适用于异常检测。为了形式化这个概念,我们引入了闭包……

在轻量级 LLM 中应用 RLAIF 进行代码生成并使用 API

Applying RLAIF for Code Generation with API-usage in Lightweight LLMs

这篇论文被 ACL 2024 的自然语言推理和结构化解释研讨会接受。人工智能反馈强化学习 (RLAIF) 已在各个领域展现出巨大潜力,包括减轻 LLM 输出的危害、增强文本摘要和数学推理。本文介绍了一个 RLAIF 框架,用于提高轻量级(<1B 个参数)LLM 的代码生成能力。我们特别关注需要编写适当 API 调用的代码生成任务,这很有挑战性,因为众所周知的问题......

面向稳健评估:大型语言模型时代开放域问答数据集和指标的综合分类

Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models

自然语言处理中的开放域问答 (ODQA) 涉及构建使用大规模知识语料库回答事实问题的系统。最近的进展源于多种因素的融合,例如大规模训练数据集、深度学习技术和大型语言模型的兴起。高质量的数据集用于在现实场景中训练模型,并支持对可能看不见的数据进行系统评估。标准化指标有助于比较不同的 ODQA 系统,使研究人员能够客观地跟踪进展……

用于设备定向语音检测的融合低秩自适应多模态大型语言模型

Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech Detection

虽然大型语言模型 (LLM) 已显示出实现类似人类对话的前景,但它们主要是在文本数据上进行预训练的。结合音频或视频可以提高性能,但收集大规模多模态数据和预训练多模态 LLM 具有挑战性。为此,我们提出了一种融合低秩自适应 (FLoRA) 技术,该技术可以有效地调整预训练的单模态 LLM,通过低秩自适应来使用新的、以前未见过的模态。对于设备导向的语音检测,使用 FLoRA,多模态 LLM 实现了相等错误率 (EER) 相对降低 22% ......

基于一致性的极端边缘计算设备上的语音识别

Conformer-Based Speech Recognition on Extreme Edge-Computing Devices

这篇论文被 NAACL 2024 的行业轨道所接受。随着当今设备的计算能力和资源越来越强大,传统上计算密集型的自动语音识别 (ASR) 已从云端转移到设备,以更好地保护用户隐私。然而,在资源受限的设备(如智能手机、智能可穿戴设备和其他小型家庭自动化设备)上实现设备上的 ASR 仍然具有挑战性。在本文中,我们提出了一系列模型架构调整、神经网络图转换和数值优化来……

个性化语音活动检测系统的比较分析:评估现实世界的有效性

Comparative Analysis of Personalized Voice Activity Detection Systems: Assessing Real-World Effectiveness

语音活动检测 (VAD) 是语音识别、说话人识别和免提通信系统等各种应用中的关键组件。随着对个性化和情境感知技术的需求不断增长,对有效的个性化 VAD 系统的需求变得至关重要。在本文中,我们对个性化语音活动检测 (PVAD) 系统进行了比较分析,以评估其在现实世界中的有效性。我们引入了一种全面的方法来评估 PVAD 系统,结合了各种性能指标,例如帧级和……

使用大型语言模型为虚拟助手生成合成查询

Synthetic Query Generation using Large Language Models for Virtual Assistants

这篇论文被 SIGIR 2024 的行业轨道所接受。虚拟助手 (VA) 是重要的信息检索平台,可帮助用户通过口头命令完成各种任务。语音识别系统 (语音转文本) 使用仅对文本进行训练的查询先验来区分语音上令人困惑的替代方案。因此,生成类似于现有 VA 用法的合成查询可以极大地提高 VA 的能力 - 尤其是对于配对音频/文本数据中尚未出现的用例。在本文中,我们提供了初步探索……

用于将 ASR 个性化为非典型语音的超网络

Hypernetworks for Personalizing ASR to Atypical Speech

*平等贡献者用于个性化自动语音识别 (ASR) 的参数高效微调 (PEFT) 最近显示出将一般人群模型适应非典型语音的前景。然而,这些方法假设对所适应的非典型言语障碍有先验知识——诊断这种障碍需要专业知识,而这些知识并不总是可用的。即使有了这些知识,数据稀缺性和说话者之间/说话者内部的高差异性也进一步限制了传统微调的有效性。为了规避这些挑战,我们首先确定模型的最小集……

基于 Transformer 的 ASR N-Best 重新评分和重写模型

Transformer-based Model for ASR N-Best Rescoring and Rewriting

语音助手越来越多地使用设备上的自动语音识别 (ASR) 来确保速度和隐私。然而,由于设备的资源限制,涉及复杂信息域的查询通常需要搜索引擎进一步处理。对于这样的应用,我们提出了一种基于 Transformer 的新型模型,该模型能够通过并行探索 N 个最佳假设的完整上下文来重新评分和重写。我们还提出了一种新的判别序列训练目标,它可以很好地用于重新评分和重写任务。我们表明我们的 Rescore+Rewrite 模型优于……

为虚拟助手提供以口语实体为中心的知识查询的服务器端重新评分

Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants

由自动语音识别 (ASR) 提供支持的设备虚拟助手需要有效的知识整合才能完成具有挑战性的实体丰富的查询识别。在本文中,我们使用各种类别的语言模型(N-Gram 词语言模型、子词神经 LM)对服务器端重新评分口头信息域查询的建模策略进行了实证研究。我们研究了设备上和服务器端信号的组合,并通过集成各种服务器端信号,在各种以实体为中心的查询子群体中展示了 23%-35% 的显着 WER 改进……

通过高效微调进行时间敏感知识编辑

Time Sensitive Knowledge Editing through Efficient Finetuning

大型语言模型 (LLM) 在不同任务中表现出令人印象深刻的能力,并为许多领域带来了变革性的变化。然而,在预训练完成后,保持 LLM 中的知识最新仍然是一个挑战。因此,设计有效的方法来更新过时的知识并将新知识引入 LLM 至关重要。现有的定位和编辑知识编辑 (KE) 方法存在两个局限性。首先,通过此类方法编辑后的 ​​LLM 通常无法很好地回答需要多跳推理的复杂查询。其次,…

改进的联邦建模使用狄利克雷多项式混合的数据集

Improved Modelling of Federated Datasets using Mixtures-of-Dirichlet-Multinomials

实际上,使用联邦学习进行训练的速度可能比标准集中式训练慢几个数量级。这严重限制了可以进行的实验和调整的数量,使得在给定任务上获得良好性能变得具有挑战性。服务器端代理数据可用于运行训练模拟,例如用于超参数调整。这可以通过减少在真实客户端上执行的调整运行次数来大大加快训练流程。然而,确保这些模拟准确反映动态是一项挑战……