PINE: Efficient Norm-Bound Verification for Secret-Shared Vectors
高维向量的安全聚合是联合统计和学习中的基本原语。双服务器系统(例如 PRIO)允许可扩展地聚合秘密共享向量。对抗性客户端可能会尝试操纵聚合,因此确保每个(秘密共享)贡献都是格式正确的非常重要。在这项工作中,我们专注于确保每个贡献向量具有有界欧几里得范数这一重要且研究充分的目标。现有的确保有界范数贡献的协议要么会产生很大的通信开销,要么只允许……
Towards Automated Accessibility Report Generation for Mobile Apps
许多应用程序都存在基本的可访问性问题,例如缺少标签或对比度低。自动化工具可以帮助应用程序开发人员发现基本问题,但运行起来可能很费力,或者需要编写专门的测试。在这项工作中,我们开发了一个系统,通过与 Apple 的可访问性利益相关者的协作流程从移动应用程序生成可访问性报告。我们的方法将各种数据收集方法(例如,应用程序抓取、手动记录)与现有的可访问性扫描仪相结合。许多这样的扫描仪都基于单屏扫描,而整个应用程序可访问性中的一个关键问题……
Projected Language Models: A Large Model Pre-Segmented Into Smaller Ones
这篇论文已被 ICML 2024 的 Foundation Models in the Wild 研讨会接受。大型语言模型是一种多功能工具,但不适合小型推理预算。小型模型具有更高效的推理能力,但其容量较低,这意味着只有将其范围限制在专业领域时,其性能才会很好。这篇论文探讨了如何获得具有良好专业准确度的小型语言模型,即使在预训练期间专业化数据未知的情况下也是如此。我们提出了一种新颖的架构,即投影网络 (PN)。PN 是一种高容量网络,其参数……
International Conference on Machine Learning (ICML) 2024
Apple 赞助了 2024 年国际机器学习会议 (ICML),该会议将于 7 月 21 日至 27 日在奥地利维也纳的 Messe Wien 展览和会议中心举行。ICML 因展示和发表机器学习各个方面的前沿研究而闻名全球,这些研究用于密切相关的领域,如人工智能、统计学和数据科学,以及机器视觉、计算生物学、语音识别和机器人技术等重要应用领域。以下是我们在 ICML 2024 上赞助的研讨会和活动的时间表。
On a Neural Implementation of Brenier's Polar Factorization
1991 年,Brenier 证明了一个定理,该定理将方阵的极分解(分解为 PSD ×\times× 单位矩阵)推广到任何矢量场 F:Rd→RdF:\mathbb{R}^d\rightarrow \mathbb{R}^dF:Rd→Rd。该定理称为极分解定理,指出任何场 FFF 都可以恢复为凸函数 uuu 的梯度与保测度映射 MMM 的组合,即 F=∇u∘MF=\nabla u \circ MF=∇u∘M。我们提出了这一影响深远的理论结果的实际实现,并探索了机器学习中的可能用途。该定理与… 密切相关
Whispering Experts: Toxicity Mitigation in Pre-trained Language Models by Dampening Expert Neurons
大型语言模型 (LLM) 的一个重要问题是它们会产生不良的毒性语言。在这项研究中,我们表明,负责毒性的神经元可以通过它们区分有毒句子的能力来确定,并且可以通过按比例降低它们的激活水平来减轻毒性语言。我们提出了 AUROC 适应 (AURA),这是一种可以应用于任何预先训练的 LLM 以减轻毒性的干预措施。由于干预措施与每个神经元区分有毒内容的能力成正比,因此它不受任何模型依赖的影响……
On the Minimal Degree Bias in Generalization on the Unseen for non-Boolean Functions
我们研究了随机特征 (RF) 模型和 Transformer 的域外泛化。我们首先证明,在“在看不见的 (GOTU) 上泛化”设置中,训练数据在域的某些部分完全可见,但在另一部分进行测试,对于小特征范围内的 RF 模型,收敛发生在最小程度的插值器上,就像布尔情况一样 (Abbe 等人,2023)。然后,我们考虑稀疏目标范围,并解释该范围与小特征范围的关系,但使用不同的正则化项,可以改变图片……
Revealing the Utilized Rank of Subspaces of Learning in Neural Networks
在这项工作中,我们研究了神经网络的学习权重如何很好地利用可用的空间。这个概念与容量有关,但还结合了网络架构与数据集的交互。大多数学习到的权重似乎是满秩的,因此不适合低秩分解。这误导性地暗示权重正在利用它们可用的整个空间。我们提出了一种简单的数据驱动转换,将权重投影到数据和权重相互作用的子空间上。这保留了功能映射……
自注意力和掩蔽自注意力是 Transformers 取得巨大成功的核心。然而,我们对注意力的数学理解,特别是对其 Lipschitz 属性的理解(这是分析鲁棒性和表达能力的关键)并不完整。我们在几个实际场景中对自注意力的 Lipschitz 常数进行了详细研究,讨论了序列长度和层规范化对未掩蔽和掩蔽自注意力的局部 Lipschitz 常数的影响。特别是,我们表明,对于任何紧凑的 n 的输入...
Contrasting Multiple Representations with the Multi-Marginal Matching Gap
学习可通过多个(k≥3k\geq 3k≥3)视图或模态看到的复杂对象的有意义的表示是机器学习的核心任务。现有方法使用最初用于成对视图的损失,并将其扩展到 kkk 个视图,方法是实例化 12k(k−1)\tfrac12k(k-1)21k(k−1) 损失对,或通过使用减少的嵌入,遵循一对平均\textit{一对平均}一对平均策略。我们提出了多边际匹配间隙 (M3G),这是一种借用多边际最优传输 (MM-OT) 理论工具的损失……
A Direct Algorithm for Multi-Gyroscope Infield Calibration
在本文中,我们解决了估计旋转外部参数以及刚性安装在同一设备上的两个陀螺仪的比例因子的问题。具体来说,我们将问题公式化为最小二乘最小化,并引入一种直接算法,该算法无需任何迭代即可计算估计量,从而避免局部最小值并提高效率。此外,我们表明,对于陀螺仪的一般配置,旋转外部参数是可观测的,而比例因子可以确定为全局尺度。为此,我们还研究了特殊……
Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation
尽管大型语言模型 (LLM) 取得了成功,但它们表现出明显的缺点,尤其是在处理长上下文时。它们的推理成本与序列长度成二次方关系,这使得在某些现实世界的文本处理应用程序中部署它们的成本很高,例如检索增强生成 (RAG)。此外,LLM 还表现出“分心现象”,提示中不相关的上下文会降低输出质量。为了解决这些缺点,我们提出了一种新颖的 RAG 提示方法,即叠加提示,可以直接应用于……
Omnipredictors for Regression and the Approximate Rank of Convex Functions
考虑监督学习设置,其目标是学习根据分布中的点 x 预测标签 y。损失函数类 L 和假设类 C 的全能预测器是这样的预测器,对于 L 中的每个损失,其预测的预期损失小于 C 中的最佳假设。自从 [GKR+21] 的工作引入这一概念以来,在 y∈{0,1} 的二元标签设置中已经有大量工作,但对于 y∈[0,1] 可以是连续的回归设置,人们知之甚少。我们的主要概念贡献是充分的概念……
Enhancing CTC-based Speech Recognition with Diverse Modeling Units
近年来,端到端 (E2E) 自动语音识别 (ASR) 模型的发展令人瞩目,这在很大程度上要归功于 Transformer 等深度学习架构的进步。在 E2E 系统的基础上,研究人员通过使用基于音素的模型重新评分 E2E 模型的 N 个最佳假设,实现了显着的准确性提升。这提出了一个有趣的问题,即除了系统组合效应之外,改进还来自哪里。我们研究了推动这些收益的潜在机制,并提出了一种有效的联合训练方法,其中 E2E 模型进行联合训练……
On Computationally Efficient Multi-Class Calibration
考虑一个多类标记问题,其中标签可以取 [k] 中的值,而预测器可以预测标签上的分布。在这项工作中,我们研究了以下基本问题:是否存在多类校准的概念,可以强有力地保证有意义的预测,并且可以在时间和样本复杂度为 k 的多项式内实现?先前的校准概念在计算效率和表达能力之间表现出权衡:它们要么受制于样本复杂度为 k 的指数,要么需要解决计算上难以解决的问题,要么给出……
Careful With That Scalpel: Improving Gradient Surgery With an EMA
除了最小化单个训练损失之外,许多深度学习估计管道还依赖于辅助目标来量化和鼓励模型的理想属性(例如,在另一个数据集上的性能、稳健性、与先验的一致性)。虽然合并辅助损失的最简单方法是将其与训练损失相加作为正则化器,但最近的研究表明,可以通过混合梯度而不是简单的总和来提高性能;这被称为梯度手术。我们将问题视为一个受约束的最小化问题,其中辅助目标是……
Accurate Knowledge Distillation via N-best Reranking
我们建议利用 n-best 重新排序来增强序列级知识蒸馏 (Kim and Rush, 2016),其中我们从前 n 个最佳假设中提取学生模型训练数据的伪标签,并利用具有不同归纳偏差、目标函数或架构的多样化模型集(包括一些公开可用的大型语言模型)来挑选最高质量的假设作为标签。通过在 WMT’21 德语 ↔ 英语和中文 ↔ 英语翻译任务上的实验验证了我们提案的有效性。我们的结果表明,利用……
Transfer Learning for Structured Pruning under Limited Task Data
这篇论文被 NeurIPS 的高效自然语言和语音处理 (ENLSP-III) 研讨会接受。大型预训练模型在资源受限的应用程序中使用存在问题。幸运的是,任务感知的结构化修剪方法提供了一种解决方案。这些方法通过以考虑最终任务的方式删除层和注意力头等结构单元来减小模型大小。然而,这些剪枝算法需要比通常可用的更多特定于任务的数据。我们提出了一个将结构化剪枝与迁移学习相结合的框架,以减少…