UI-JEPA: Towards Active Perception of User Intent Through Onscreen User Activity
从一系列用户界面 (UI) 操作中生成用户意图是全面理解 UI 的核心挑战。多模态大型语言模型 (MLLM) 的最新进展已导致该领域取得了实质性进展,但它们对大量模型参数、计算能力和高延迟的要求使其不适用于需要轻量级、低延迟或高度隐私的设备解决方案的场景。此外,缺乏高质量的数据集阻碍了此类轻量级模型的开发。为了应对这些挑战,我们提出了 UI-JEPA,一种……
CTRLorALTer: Conditional LoRAdapter for Efficient Zero-Shot Control & Altering of T2I Models
文本到图像生成模型已成为一种突出且强大的工具,擅长生成高分辨率逼真的图像。然而,引导这些模型的生成过程考虑反映风格和/或结构信息的详细条件形式仍然是一个悬而未决的问题。在本文中,我们提出了 LoRAdapter,这是一种使用新颖的条件 LoRA 块在同一公式下统一风格和结构条件的方法,可实现零样本控制。 LoRAdapter 是一种高效、强大且与架构无关的条件方法……
Optimizing Byte-level Representation for End-to-End ASR
在本文中,我们提出了一种优化端到端 (E2E) 自动语音识别 (ASR) 字节级表示的算法。当支持的语言的字符集很大时,大型多语言 ASR 系统通常会使用字节级表示。字节级表示的紧凑性和通用性使 ASR 模型可以使用较小的输出,从而提供更大的灵活性。UTF-8 是最常用的字节级表示,已成功应用于 ASR。然而,它不是为 ASR 或任何机器学习任务设计的。通过使用……
Apple Workshop on Privacy-Preserving Machine Learning 2024
在 Apple,我们认为隐私是一项基本人权。这也是我们的核心价值观之一,影响着我们的研究以及 Apple 产品和服务的设计。了解人们如何使用他们的设备通常有助于改善用户体验。但是,访问提供此类见解的数据(例如,用户在键盘上输入的内容以及他们访问的网站)可能会损害用户隐私。我们开发了系统架构,通过利用机器学习 (ML) 的进步(例如私有联邦学习 (PFL))结合……来实现大规模学习。
Positional Description for Numerical Normalization
我们提出了一种针对数字序列量身定制的位置描述方案 (PDS),集成了每个数字的占位符值信息。鉴于子词标记算法的结构限制,语言模型在处理数字任务时遇到了关键的文本规范化 (TN) 挑战。我们的模式通过直接的预处理解决了这一挑战,保留了模型架构,同时显着简化了数字规范化,使问题变得易于处理。这简化了任务并促进了更紧凑的生产就绪模型能够……
Classifier-Free Guidance Is a Predictor-Corrector
我们研究了无分类器指导 (CFG) 的不合理有效性。CFG 是文本到图像扩散模型的条件采样的主要方法,但与扩散的其他方面不同,它的理论基础仍然不稳定。在本文中,我们通过展示 CFG 与 DDPM 和 DDIM 的交互方式不同,并且 CFG 的采样器都不会生成伽马驱动分布,从而反驳了常见的误解。然后,我们通过展示它是一种在去噪和锐化之间交替的预测校正 (PC) 方法来阐明 CFG 的行为,我们称之为……
On the Benefits of Pixel-Based Hierarchical Policies for Task Generalization
强化学习从业者通常避免使用分层策略,尤其是在基于图像的观察空间中。通常,与平面策略相比,单任务性能的改进并不能证明实施层次结构所带来的额外复杂性是合理的。但是,通过引入多个决策层,分层策略可以组成较低级别的策略,以更有效地在任务之间进行概括,从而突出了多任务评估的必要性。我们通过像素模拟多任务机器人控制实验来分析层次结构的好处……
Can You Remove the Downstream Model for Speaker Recognition with Self-Supervised Speech Features?
在说话人验证模型中,自监督特征通常代替滤波器组特征。但是,这些模型最初设计为将滤波器组作为输入,因此,在自监督特征上训练它们假设两种特征类型都需要相同数量的学习才能完成任务。在这项工作中,我们观察到预先训练的自监督语音特征固有地包含下游说话人验证任务所需的信息,因此,我们可以在不牺牲性能的情况下简化下游模型。为此,我们重新审视…
RepCNN: Micro-Sized, Mighty Models for Wakeword Detection
始终在线的机器学习模型需要非常低的内存和计算占用空间。它们的受限参数数量限制了模型的学习能力,以及通常的训练算法找到最佳参数的有效性。在这里,我们展示了通过首先将其计算重构为更大的冗余多分支架构,可以更好地训练小型卷积模型。然后,为了进行推理,我们代数地将训练后的模型重新参数化为具有更少参数的单分支形式,以降低内存占用和计算成本。使用这种技术,我们展示了……
Novel-View Acoustic Synthesis From 3D Reconstructed Rooms
我们研究了将盲音频记录与 3D 场景信息相结合以实现新视角声学合成的好处。给定来自 2-4 个麦克风的音频记录以及包含多个未知声源的场景的 3D 几何形状和材料,我们估计场景中任何地方的声音。我们认为新视角声学合成的主要挑战是声源定位、分离和去混响。虽然单纯地训练端到端网络无法产生高质量的结果,但我们表明,结合从 3D 重建中得到的房间脉冲响应 (RIR)……
ReALM: Reference Resolution as Language Modeling
引用解析是一个重要问题,对于理解和成功处理不同类型的上下文至关重要。此上下文包括先前的轮次和与非对话实体相关的上下文,例如用户屏幕上的实体或在后台运行的实体。虽然 LLM 已被证明对各种任务都非常强大,但它们在引用解析中的使用,特别是对于非对话实体,仍未得到充分利用。本文展示了如何使用 LLM 来创建一个有效的系统来解析各种引用……
Apple 将于 9 月 1 日至 5 日在希腊科斯赞助第 25 届年度 Interspeech 会议。Interspeech 专注于围绕口语处理科学和技术的研究。以下是 Apple 赞助的 Interspeech 2024 研讨会和活动的时间表。
Improving GFlowNets for Text-to-Image Diffusion Alignment
这篇论文被 ICML 2024 的 Foundation Models in the Wild 研讨会接受。扩散模型已成为生成视觉数据的实际方法,这些模型经过训练以匹配训练数据集的分布。此外,我们还希望控制生成以满足所需的属性,例如与文本描述的对齐,这可以通过黑盒奖励函数来指定。先前的工作通过基于强化学习的算法对预训练的扩散模型进行了微调,以实现此目标。尽管如此,它们仍存在一些问题,包括信用分配缓慢……
International Conference on Machine Learning (ICML) 2024
Apple 赞助了 2024 年国际机器学习会议 (ICML),该会议将于 7 月 21 日至 27 日在奥地利维也纳的 Messe Wien 展览和会议中心举行。ICML 因展示和发表机器学习各个方面的前沿研究而闻名全球,这些研究用于密切相关的领域,如人工智能、统计学和数据科学,以及机器视觉、计算生物学、语音识别和机器人技术等重要应用领域。以下是我们在 ICML 2024 上赞助的研讨会和活动的时间表。
PINE: Efficient Norm-Bound Verification for Secret-Shared Vectors
高维向量的安全聚合是联合统计和学习中的基本原语。双服务器系统(例如 PRIO)允许可扩展地聚合秘密共享向量。对抗性客户端可能会尝试操纵聚合,因此确保每个(秘密共享)贡献都是格式正确的非常重要。在这项工作中,我们专注于确保每个贡献向量具有有界欧几里得范数这一重要且研究充分的目标。现有的确保有界范数贡献的协议要么会产生很大的通信开销,要么只允许……
Towards Automated Accessibility Report Generation for Mobile Apps
许多应用程序都存在基本的可访问性问题,例如缺少标签或对比度低。自动化工具可以帮助应用程序开发人员发现基本问题,但运行起来可能很费力,或者需要编写专门的测试。在这项工作中,我们开发了一个系统,通过与 Apple 的可访问性利益相关者的协作流程从移动应用程序生成可访问性报告。我们的方法将各种数据收集方法(例如,应用程序抓取、手动记录)与现有的可访问性扫描仪相结合。许多这样的扫描仪都基于单屏扫描,而整个应用程序可访问性中的一个关键问题……
Projected Language Models: A Large Model Pre-Segmented Into Smaller Ones
这篇论文已被 ICML 2024 的 Foundation Models in the Wild 研讨会接受。大型语言模型是一种多功能工具,但不适合小型推理预算。小型模型具有更高效的推理能力,但其容量较低,这意味着只有将其范围限制在专业领域时,其性能才会很好。这篇论文探讨了如何获得具有良好专业准确度的小型语言模型,即使在预训练期间专业化数据未知的情况下也是如此。我们提出了一种新颖的架构,即投影网络 (PN)。PN 是一种高容量网络,其参数……
On a Neural Implementation of Brenier's Polar Factorization
1991 年,Brenier 证明了一个定理,该定理将方阵的极分解(分解为 PSD ×\times× 单位矩阵)推广到任何矢量场 F:Rd→RdF:\mathbb{R}^d\rightarrow \mathbb{R}^dF:Rd→Rd。该定理称为极分解定理,指出任何场 FFF 都可以恢复为凸函数 uuu 的梯度与保测度映射 MMM 的组合,即 F=∇u∘MF=\nabla u \circ MF=∇u∘M。我们提出了这一影响深远的理论结果的实际实现,并探索了机器学习中的可能用途。该定理与… 密切相关