Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

无分类器指导是一种预测器-校正器

Classifier-Free Guidance Is a Predictor-Corrector

我们研究了无分类器指导 (CFG) 的不合理有效性。CFG 是文本到图像扩散模型的条件采样的主要方法,但与扩散的其他方面不同,它的理论基础仍然不稳定。在本文中,我们通过展示 CFG 与 DDPM 和 DDIM 的交互方式不同,并且 CFG 的采样器都不会生成伽马驱动分布,从而反驳了常见的误解。然后,我们通过展示它是一种在去噪和锐化之间交替的预测校正 (PC) 方法来阐明 CFG 的行为,我们称之为……

基于像素的分层策略对任务泛化的好处

On the Benefits of Pixel-Based Hierarchical Policies for Task Generalization

强化学习从业者通常避免使用分层策略,尤其是在基于图像的观察空间中。通常,与平面策略相比,单任务性能的改进并不能证明实施层次结构所带来的额外复杂性是合理的。但是,通过引入多个决策层,分层策略可以组成较低级别的策略,以更有效地在任务之间进行概括,从而突出了多任务评估的必要性。我们通过像素模拟多任务机器人控制实验来分析层次结构的好处……

您可以使用自监督语音特征删除用于说话人识别的下游模型吗?

Can You Remove the Downstream Model for Speaker Recognition with Self-Supervised Speech Features?

在说话人验证模型中,自监督特征通常代替滤波器组特征。但是,这些模型最初设计为将滤波器组作为输入,因此,在自监督特征上训练它们假设两种特征类型都需要相同数量的学习才能完成任务。在这项工作中,我们观察到预先训练的自监督语音特征固有地包含下游说话人验证任务所需的信息,因此,我们可以在不牺牲性能的情况下简化下游模型。为此,我们重新审视…

来自 3D 重建房间的新颖视角声学合成

Novel-View Acoustic Synthesis From 3D Reconstructed Rooms

我们研究了将盲音频记录与 3D 场景信息相结合以实现新视角声学合成的好处。给定来自 2-4 个麦克风的音频记录以及包含多个未知声源的场景的 3D 几何形状和材料,我们估计场景中任何地方的声音。我们认为新视角声学合成的主要挑战是声源定位、分离和去混响。虽然单纯地训练端到端网络无法产生高质量的结果,但我们表明,结合从 3D 重建中得到的房间脉冲响应 (RIR)……

Interspeech 2024

Interspeech 2024

Apple 将于 9 月 1 日至 5 日在希腊科斯赞助第 25 届年度 Interspeech 会议。Interspeech 专注于围绕口语处理科学和技术的研究。以下是 Apple 赞助的 Interspeech 2024 研讨会和活动的时间表。

RepCNN:用于唤醒词检测的微型、强大的模型

RepCNN: Micro-Sized, Mighty Models for Wakeword Detection

始终在线的机器学习模型需要非常低的内存和计算占用空间。它们的受限参数数量限制了模型的学习能力,以及通常的训练算法找到最佳参数的有效性。在这里,我们展示了通过首先将其计算重构为更大的冗余多分支架构,可以更好地训练小型卷积模型。然后,为了进行推理,我们代数地将训练后的模型重新参数化为具有更少参数的单分支形式,以降低内存占用和计算成本。使用这种技术,我们展示了……

ReALM:参考分辨率作为语言建模

ReALM: Reference Resolution as Language Modeling

引用解析是一个重要问题,对于理解和成功处理不同类型的上下文至关重要。此上下文包括先前的轮次和与非对话实体相关的上下文,例如用户屏幕上的实体或在后台运行的实体。虽然 LLM 已被证明对各种任务都非常强大,但它们在引用解析中的使用,特别是对于非对话实体,仍未得到充分利用。本文展示了如何使用 LLM 来创建一个有效的系统来解析各种引用……

2024 年国际机器学习会议 (ICML)

International Conference on Machine Learning (ICML) 2024

Apple 赞助了 2024 年国际机器学习会议 (ICML),该会议将于 7 月 21 日至 27 日在奥地利维也纳的 Messe Wien 展览和会议中心举行。ICML 因展示和发表机器学习各个方面的前沿研究而闻名全球,这些研究用于密切相关的领域,如人工智能、统计学和数据科学,以及机器视觉、计算生物学、语音识别和机器人技术等重要应用领域。以下是我们在 ICML 2024 上赞助的研讨会和活动的时间表。

PINE:秘密共享向量的有效范数边界验证

PINE: Efficient Norm-Bound Verification for Secret-Shared Vectors

高维向量的安全聚合是联合统计和学习中的基本原语。双服务器系统(例如 PRIO)允许可扩展地聚合秘密共享向量。对抗性客户端可能会尝试操纵聚合,因此确保每个(秘密共享)贡献都是格式正确的非常重要。在这项工作中,我们专注于确保每个贡献向量具有有界欧几里得范数这一重要且研究充分的目标。现有的确保有界范数贡献的协议要么会产生很大的通信开销,要么只允许……

面向移动应用的自动可访问性报告生成

Towards Automated Accessibility Report Generation for Mobile Apps

许多应用程序都存在基本的可访问性问题,例如缺少标签或对比度低。自动化工具可以帮助应用程序开发人员发现基本问题,但运行起来可能很费力,或者需要编写专门的测试。在这项工作中,我们开发了一个系统,通过与 Apple 的可访问性利益相关者的协作流程从移动应用程序生成可访问性报告。我们的方法将各种数据收集方法(例如,应用程序抓取、手动记录)与现有的可访问性扫描仪相结合。许多这样的扫描仪都基于单屏扫描,而整个应用程序可访问性中的一个关键问题……

投影语言模型:将大型模型预先分割成较小的模型

Projected Language Models: A Large Model Pre-Segmented Into Smaller Ones

这篇论文已被 ICML 2024 的 Foundation Models in the Wild 研讨会接受。大型语言模型是一种多功能工具,但不适合小型推理预算。小型模型具有更高效的推理能力,但其容量较低,这意味着只有将其范围限制在专业领域时,其性能才会很好。这篇论文探讨了如何获得具有良好专业准确度的小型语言模型,即使在预训练期间专业化数据未知的情况下也是如此。我们提出了一种新颖的架构,即投影网络 (PN)。PN 是一种高容量网络,其参数……

改进 GFlowNets 以实现文本到图像扩散对齐

Improving GFlowNets for Text-to-Image Diffusion Alignment

这篇论文被 ICML 2024 的 Foundation Models in the Wild 研讨会接受。扩散模型已成为生成视觉数据的实际方法,这些模型经过训练以匹配训练数据集的分布。此外,我们还希望控制生成以满足所需的属性,例如与文本描述的对齐,这可以通过黑盒奖励函数来指定。先前的工作通过基于强化学习的算法对预训练的扩散模型进行了微调,以实现此目标。尽管如此,它们仍存在一些问题,包括信用分配缓慢……

关于 Brenier 极分解的神经实现

On a Neural Implementation of Brenier's Polar Factorization

1991 年,Brenier 证明了一个定理,该定理将方阵的极分解(分解为 PSD ×\times× 单位矩阵)推广到任何矢量场 F:Rd→RdF:\mathbb{R}^d\rightarrow \mathbb{R}^dF:Rd→Rd。该定理称为极分解定理,指出任何场 FFF 都可以恢复为凸函数 uuu 的梯度与保测度映射 MMM 的组合,即 F=∇u∘MF=\nabla u \circ MF=∇u∘M。我们提出了这一影响深远的理论结果的实际实现,并探索了机器学习中的可能用途。该定理与… 密切相关

CodeAct:您的 LLM 代理在生成代码时表现更好

CodeAct: Your LLM Agent Acts Better when Generating Code

大型语言模型 (LLM) 代理能够执行广泛的操作,例如调用工具和控制机器人,在应对现实世界的挑战方面表现出巨大潜力。LLM 代理通常通过生成预定义格式的 JSON 或文本来提示其产生操作,这通常受到受限的操作空间(例如,预定义工具的范围)和受限的灵活性(例如,无法组合多个工具)的限制。这项工作提出使用可执行的 Python 代码将 LLM 代理的操作整合到统一的操作空间 (CodeAct) 中。集成...

关于非布尔函数在未见范围内泛化的最小度偏差

On the Minimal Degree Bias in Generalization on the Unseen for non-Boolean Functions

我们研究了随机特征 (RF) 模型和 Transformer 的域外泛化。我们首先证明,在“在看不见的 (GOTU) 上泛化”设置中,训练数据在域的某些部分完全可见,但在另一部分进行测试,对于小特征范围内的 RF 模型,收敛发生在最小程度的插值器上,就像布尔情况一样 (Abbe 等人,2023)。然后,我们考虑稀疏目标范围,并解释该范围与小特征范围的关系,但使用不同的正则化项,可以改变图片……

耳语专家:通过抑制专家神经元来减轻预训练语言模型中的毒性

Whispering Experts: Toxicity Mitigation in Pre-trained Language Models by Dampening Expert Neurons

大型语言模型 (LLM) 的一个重要问题是它们会产生不良的毒性语言。在这项研究中,我们表明,负责毒性的神经元可以通过它们区分有毒句子的能力来确定,并且可以通过按比例降低它们的激活水平来减轻毒性语言。我们提出了 AUROC 适应 (AURA),这是一种可以应用于任何预先训练的 LLM 以减轻毒性的干预措施。由于干预措施与每个神经元区分有毒内容的能力成正比,因此它不受任何模型依赖的影响……

注意力有多顺畅?

How Smooth Is Attention?

自注意力和掩蔽自注意力是 Transformers 取得巨大成功的核心。然而,我们对注意力的数学理解,特别是对其 Lipschitz 属性的理解(这是分析鲁棒性和表达能力的关键)并不完整。我们在几个实际场景中对自注意力的 Lipschitz 常数进行了详细研究,讨论了序列长度和层规范化对未掩蔽和掩蔽自注意力的局部 Lipschitz 常数的影响。特别是,我们表明,对于任何紧凑的 n 的输入...

多陀螺仪内场校准的直接算法

A Direct Algorithm for Multi-Gyroscope Infield Calibration

在本文中,我们解决了估计旋转外部参数以及刚性安装在同一设备上的两个陀螺仪的比例因子的问题。具体来说,我们将问题公式化为最小二乘最小化,并引入一种直接算法,该算法无需任何迭代即可计算估计量,从而避免局部最小值并提高效率。此外,我们表明,对于陀螺仪的一般配置,旋转外部参数是可观测的,而比例因子可以确定为全局尺度。为此,我们还研究了特殊……