Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

改进 GFlowNets 以实现文本到图像扩散对齐

Improving GFlowNets for Text-to-Image Diffusion Alignment

这篇论文被 ICML 2024 的 Foundation Models in the Wild 研讨会接受。扩散模型已成为生成视觉数据的实际方法,这些模型经过训练以匹配训练数据集的分布。此外,我们还希望控制生成以满足所需的属性,例如与文本描述的对齐,这可以通过黑盒奖励函数来指定。先前的工作通过基于强化学习的算法对预训练的扩散模型进行了微调,以实现此目标。尽管如此,它们仍存在一些问题,包括信用分配缓慢……

面向移动应用的自动可访问性报告生成

Towards Automated Accessibility Report Generation for Mobile Apps

许多应用程序都存在基本的可访问性问题,例如缺少标签或对比度低。自动化工具可以帮助应用程序开发人员发现基本问题,但运行起来可能很费力,或者需要编写专门的测试。在这项工作中,我们开发了一个系统,通过与 Apple 的可访问性利益相关者的协作流程从移动应用程序生成可访问性报告。我们的方法将各种数据收集方法(例如,应用程序抓取、手动记录)与现有的可访问性扫描仪相结合。许多这样的扫描仪都基于单屏扫描,而整个应用程序可访问性中的一个关键问题……

关于 Brenier 极分解的神经实现

On a Neural Implementation of Brenier's Polar Factorization

1991 年,Brenier 证明了一个定理,该定理将方阵的极分解(分解为 PSD ×\times× 单位矩阵)推广到任何矢量场 F:Rd→RdF:\mathbb{R}^d\rightarrow \mathbb{R}^dF:Rd→Rd。该定理称为极分解定理,指出任何场 FFF 都可以恢复为凸函数 uuu 的梯度与保测度映射 MMM 的组合,即 F=∇u∘MF=\nabla u \circ MF=∇u∘M。我们提出了这一影响深远的理论结果的实际实现,并探索了机器学习中的可能用途。该定理与… 密切相关

耳语专家:通过抑制专家神经元来减轻预训练语言模型中的毒性

Whispering Experts: Toxicity Mitigation in Pre-trained Language Models by Dampening Expert Neurons

大型语言模型 (LLM) 的一个重要问题是它们会产生不良的毒性语言。在这项研究中,我们表明,负责毒性的神经元可以通过它们区分有毒句子的能力来确定,并且可以通过按比例降低它们的激活水平来减轻毒性语言。我们提出了 AUROC 适应 (AURA),这是一种可以应用于任何预先训练的 LLM 以减轻毒性的干预措施。由于干预措施与每个神经元区分有毒内容的能力成正比,因此它不受任何模型依赖的影响……

揭示神经网络中学习子空间的利用等级

Revealing the Utilized Rank of Subspaces of Learning in Neural Networks

在这项工作中,我们研究了神经网络的学习权重如何很好地利用可用的空间。这个概念与容量有关,但还结合了网络架构与数据集的交互。大多数学习到的权重似乎是满秩的,因此不适合低秩分解。这误导性地暗示权重正在利用它们可用的整个空间。我们提出了一种简单的数据驱动转换,将权重投影到数据和权重相互作用的子空间上。这保留了功能映射……

多陀螺仪内场校准的直接算法

A Direct Algorithm for Multi-Gyroscope Infield Calibration

在本文中,我们解决了估计旋转外部参数以及刚性安装在同一设备上的两个陀螺仪的比例因子的问题。具体来说,我们将问题公式化为最小二乘最小化,并引入一种直接算法,该算法无需任何迭代即可计算估计量,从而避免局部最小值并提高效率。此外,我们表明,对于陀螺仪的一般配置,旋转外部参数是可观测的,而比例因子可以确定为全局尺度。为此,我们还研究了特殊……

关于非布尔函数在未见范围内泛化的最小度偏差

On the Minimal Degree Bias in Generalization on the Unseen for non-Boolean Functions

我们研究了随机特征 (RF) 模型和 Transformer 的域外泛化。我们首先证明,在“在看不见的 (GOTU) 上泛化”设置中,训练数据在域的某些部分完全可见,但在另一部分进行测试,对于小特征范围内的 RF 模型,收敛发生在最小程度的插值器上,就像布尔情况一样 (Abbe 等人,2023)。然后,我们考虑稀疏目标范围,并解释该范围与小特征范围的关系,但使用不同的正则化项,可以改变图片……

将多重表示与多重边缘匹配间隙进行对比

Contrasting Multiple Representations with the Multi-Marginal Matching Gap

学习可通过多个(k≥3k\geq 3k≥3)视图或模态看到的复杂对象的有意义的表示是机器学习的核心任务。现有方法使用最初用于成对视图的损失,并将其扩展到 kkk 个视图,方法是实例化 12k(k−1)\tfrac12k(k-1)21​k(k−1) 损失对,或通过使用减少的嵌入,遵循一对平均\textit{一对平均}一对平均策略。我们提出了多边际匹配间隙 (M3G),这是一种借用多边际最优传输 (MM-OT) 理论工具的损失……

注意力有多顺畅?

How Smooth Is Attention?

自注意力和掩蔽自注意力是 Transformers 取得巨大成功的核心。然而,我们对注意力的数学理解,特别是对其 Lipschitz 属性的理解(这是分析鲁棒性和表达能力的关键)并不完整。我们在几个实际场景中对自注意力的 Lipschitz 常数进行了详细研究,讨论了序列长度和层规范化对未掩蔽和掩蔽自注意力的局部 Lipschitz 常数的影响。特别是,我们表明,对于任何紧凑的 n 的输入...

关于计算效率高的多类校准

On Computationally Efficient Multi-Class Calibration

考虑一个多类标记问题,其中标签可以取 [k] 中的值,而预测器可以预测标签上的分布。在这项工作中,我们研究了以下基本问题:是否存在多类校准的概念,可以强有力地保证有意义的预测,并且可以在时间和样本复杂度为 k 的多项式内实现?先前的校准概念在计算效率和表达能力之间表现出权衡:它们要么受制于样本复杂度为 k 的指数,要么需要解决计算上难以解决的问题,要么给出……

回归的全预测器和凸函数的近似等级

Omnipredictors for Regression and the Approximate Rank of Convex Functions

考虑监督学习设置,其目标是学习根据分布中的点 x 预测标签 y。损失函数类 L 和假设类 C 的全能预测器是这样的预测器,对于 L 中的每个损失,其预测的预期损失小于 C 中的最佳假设。自从 [GKR+21] 的工作引入这一概念以来,在 y∈{0,1} 的二元标签设置中已经有大量工作,但对于 y∈[0,1] 可以是连续的回归设置,人们知之甚少。我们的主要概念贡献是充分的概念……

使用多样化建模单元增强基于 CTC 的语音识别

Enhancing CTC-based Speech Recognition with Diverse Modeling Units

近年来,端到端 (E2E) 自动语音识别 (ASR) 模型的发展令人瞩目,这在很大程度上要归功于 Transformer 等深度学习架构的进步。在 E2E 系统的基础上,研究人员通过使用基于音素的模型重新评分 E2E 模型的 N 个最佳假设,实现了显着的准确性提升。这提出了一个有趣的问题,即除了系统组合效应之外,改进还来自哪里。我们研究了推动这些收益的潜在机制,并提出了一种有效的联合训练方法,其中 E2E 模型进行联合训练……

叠加提示:改进和加速检索增强生成

Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation

尽管大型语言模型 (LLM) 取得了成功,但它们表现出明显的缺点,尤其是在处理长上下文时。它们的推理成本与序列长度成二次方关系,这使得在某些现实世界的文本处理应用程序中部署它们的成本很高,例如检索增强生成 (RAG)。此外,LLM 还表现出“分心现象”,提示中不相关的上下文会降低输出质量。为了解决这些缺点,我们提出了一种新颖的 RAG 提示方法,即叠加提示,可以直接应用于……

小心操作:使用 EMA 改进梯度手术

Careful With That Scalpel: Improving Gradient Surgery With an EMA

除了最小化单个训练损失之外,许多深度学习估计管道还依赖于辅助目标来量化和鼓励模型的理想属性(例如,在另一个数据集上的性能、稳健性、与先验的一致性)。虽然合并辅助损失的最简单方法是将其与训练损失相加作为正则化器,但最近的研究表明,可以通过混合梯度而不是简单的总和来提高性能;这被称为梯度手术。我们将问题视为一个受约束的最小化问题,其中辅助目标是……

有限任务数据下结构化剪枝的迁移学习

Transfer Learning for Structured Pruning under Limited Task Data

这篇论文被 NeurIPS 的高效自然语言和语音处理 (ENLSP-III) 研讨会接受。大型预训练模型在资源受限的应用程序中使用存在问题。幸运的是,任务感知的结构化修剪方法提供了一种解决方案。这些方法通过以考虑最终任务的方式删除层和注意力头等结构单元来减小模型大小。然而,这些剪枝算法需要比通常可用的更多特定于任务的数据。我们提出了一个将结构化剪枝与迁移学习相结合的框架,以减少…

通过 N-best 重新排序实现精确知识提炼

Accurate Knowledge Distillation via N-best Reranking

我们建议利用 n-best 重新排序来增强序列级知识蒸馏 (Kim and Rush, 2016),其中我们从前 n 个最佳假设中提取学生模型训练数据的伪标签,并利用具有不同归纳偏差、目标函数或架构的多样化模型集(包括一些公开可用的大型语言模型)来挑选最高质量的假设作为标签。通过在 WMT’21 德语 ↔ 英语和中文 ↔ 英语翻译任务上的实验验证了我们提案的有效性。我们的结果表明,利用……

MIA-Bench:面向多模态 LLM 评估后的更好指导

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs

我们推出了 MIA-Bench,这是一种新的基准,旨在评估多模态大型语言模型 (MLLM) 严格遵守复杂指令的能力。我们的基准由 400 个不同的图像提示对组成,每个对都经过精心设计,旨在挑战模型对分层指令的遵守情况,从而生成满足特定请求模式的准确响应。来自各种最先进的 MLLM 的评估结果揭示了性能的显著差异,突出了指令保真度方面需要改进的地方。此外,我们创建了额外的训练数据和……

混洗模型中的私有向量均值估计:最佳速率需要许多消息

Private Vector Mean Estimation in the Shuffle Model: Optimal Rates Require Many Messages

我们研究了隐私混洗模型中的隐私向量均值估计问题,其中 nnn 个用户各自在 ddd 维度中都有一个单位向量。我们提出了一种新的多消息协议,该协议使用每个用户 O~(min⁡(nε2,d))\tilde{\mathcal{O}}\left(\min(n\varepsilon^2,d)\right)O~(min(nε2,d)) 条消息来实现最优误差。此外,我们表明,任何实现最优误差的(无偏)协议都要求每个用户发送 Ω(min⁡(nε2,d)/log⁡(n))\Omega(\min(n\varepsilon^2,d)/\log(n))Ω(min(nε2,d)/log(n)) 条消息,证明了我们的消息