Momentum Approximation in Asynchronous Private Federated Learning
这篇论文被接受在与 NeurIPS 2024 联合举办的联邦基础模型国际研讨会 (FL@FM-NeurIPS'24) 上发表。异步协议已被证明可以提高具有大量客户端的联邦学习 (FL) 的可扩展性。同时,基于动量的方法可以在同步 FL 中实现最佳模型质量。然而,在异步 FL 算法中天真地应用动量会导致收敛速度变慢和模型性能下降。目前还不清楚如何有效地将这两种技术结合在一起以实现双赢……
Neural Information Processing Systems (NeurIPS) 2024
Apple 将在 12 月 10 日至 15 日在加拿大温哥华举行的神经信息处理系统 (NeurIPS) 年度会议上展示新研究成果。我们很荣幸再次赞助这个多轨跨学科会议,该会议将围绕机器学习聚集科学和工业研究社区。以下是 Apple 参加 NeurIPS 2024 的概述。
Apple Machine Learning Research at NeurIPS 2024
Apple 研究人员正在通过基础研究推动 ML 领域的发展,这些研究提高了世界对这项技术的理解,并有助于重新定义这项技术的可能性。这项工作可能会推动 Apple 产品和服务的进步,研究成果将通过出版物、开源资源以及参与行业和研究社区活动与更广泛的研究社区共享,其益处将超越 Apple 生态系统。下周,第 38 届神经信息处理系统 (NeurIPS) 年度会议将在加拿大温哥华举行……
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts
多模态大型语言模型 (MLLM) 的显著进步并未使它们免受挑战,特别是在处理提示中的欺骗性信息的情况下,因此在这种情况下会产生幻觉反应。为了定量评估这种脆弱性,我们提出了 MAD-Bench,这是一个精心策划的基准,包含 1000 个测试样本,分为 5 个类别,例如不存在的对象、对象计数和空间关系。我们对流行的 MLLM 进行了全面分析,从 GPT-4v、Reka、Gemini-Pro 到开源模型……
Private and Personalized Frequency Estimation in a Federated Setting
受用户设备上的下一个单词预测问题的启发,我们引入并研究了联合设置中的个性化频率直方图估计问题。在此问题中,在某些领域,每个用户都会从特定于该用户的分布中观察多个样本。目标是为所有用户计算用户分布的个性化估计,误差以 KL 散度来衡量。我们专注于解决两个核心挑战:统计异质性和用户隐私保护。我们解决问题的方法依赖于发现和利用类似的……
Leveraging Periodicity for Robustness with Multi-modal Mood Pattern Models
*平等贡献者来自可穿戴传感器的数据(例如心率、步数)可用于模拟情绪模式。我们使用多模态离散时间序列数据表征特征表示和建模策略,使用具有自然缺失的大型数据集(n=116,819 名参与者)进行情绪模式分类,使用 12 个可穿戴数据流,重点是捕捉数据的周期性趋势。综合考虑性能和鲁棒性,基于周期性的具有梯度提升模型的聚合特征表示优于其他表示和架构……
GENOT: Entropic (Gromov) Wasserstein Flow Matching with Applications to Single-Cell Genomics
单细胞基因组学极大地促进了我们对细胞行为的理解,促进了治疗和精准医疗的创新。然而,单细胞测序技术本质上具有破坏性,只能同时测量有限的数据模式。这一限制凸显了对能够重新排列细胞的新方法的需求。最佳传输 (OT) 已成为一种有效的解决方案,但传统的离散求解器受到可扩展性、隐私和样本外估计问题的阻碍。这些挑战刺激了神经网络的发展……
Learning Elastic Costs to Shape Monge Displacements
给定一个由 Rd\mathbb{R}^dRd 支持的源和目标概率测量,Monge 问题旨在以最有效的方式将一个分布映射到另一个分布。这种效率通过定义源数据和目标数据之间的成本函数来量化。在机器学习文献中,这种成本通常默认设置为平方欧几里得距离,ℓ22(x,y)=12∥x−y∥22\ell^2_2(x,y)=\tfrac12\|x-y\|_2^2ℓ22(x,y)=21∥x−y∥22。使用弹性成本的好处,通过正则化器 τ\tauτ 定义为 c(x,y)=ℓ22(x,y)+τ(x−y)c(x, y)=\ell^2_2(x,y)+\tau(x-y)c(x,y)=ℓ22(x,y)+τ(x−y),
Towards Time-Series Reasoning with LLMs
多模态大型语言模型 (MLLM) 已在视觉等领域的理解和推理方面取得了许多进展,但我们尚未看到时间序列取得如此广泛的成功。尽管之前对时间序列 MLLM 的研究在时间序列预测中表现出色,但很少有研究展示 LLM 如何用于自然语言的时间序列推理。我们提出了一种新颖的多模态时间序列 LLM 方法,该方法可以学习跨各个领域的可推广信息,并具有强大的零样本性能。首先,我们在… 之上训练一个轻量级时间序列编码器
Strategic Linear Contextual Bandits
受战略代理操纵推荐系统以最大化向用户推荐的次数这一现象的启发,我们研究了线性上下文强盗问题的一个战略变体,其中手臂战略性地向学习者错误报告私下观察到的上下文。% 在战略背景操纵下。我们将算法设计问题视为不确定性下的 \emph{机制设计} 问题之一,并提出了乐观严峻触发机制 (OptGTM),该机制可最大限度地减少遗憾,同时激励代理大致诚实。我们表明……
Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling
扩散模型已成为从文本描述生成高质量图像的强大工具。尽管这些模型取得了成功,但它们在采样图像中通常表现出有限的多样性,尤其是在使用高无分类器指导权重进行采样时。为了解决这个问题,我们提出了 Kaleido,这是一种通过结合自回归潜在先验来增强样本多样性的新方法。Kaleido 集成了一个自回归语言模型,该模型对原始标题进行编码并生成潜在变量,作为抽象和中间表示……
Speech is More Than Words: Do Speech-to-Text Translation Systems Leverage Prosody?
这篇论文被 EMNLP 2024 的第九届机器翻译会议 (WMT24) 接受。口语的韵律,包括重音、语调和节奏等特征,会显著影响底层语义,从而也会影响其文本翻译。尽管如此,韵律很少在语音到文本翻译 (S2TT) 系统的背景下进行研究。特别是,端到端 (E2E) 系统被认为非常适合韵律感知翻译,因为它们在做出翻译决策时可以直接访问语音信号,但……
Instance-Optimal Private Density Estimation in the Wasserstein Distance
从样本中估计分布的密度是统计学中的一个基本问题。在许多实际情况下,Wasserstein 距离是密度估计的合适误差度量。例如,在估计某个地理区域的人口密度时,较小的 Wasserstein 距离意味着估计值能够大致捕捉到人口质量的位置。在这项工作中,我们研究了 Wasserstein 距离中的差分隐私密度估计。我们设计并分析了可以适应简单实例的该问题的实例优化算法。对于分布……
Multimodal Autoregressive Pre-Training of Large Vision Encoders
*平等贡献者大型多模态模型中的主导范式是将大型语言解码器与视觉编码器配对。虽然众所周知如何为多模态任务预训练和调整语言解码器,但不太清楚应该如何预训练视觉编码器。事实上的标准是使用判别目标(例如对比损失)预训练视觉编码器。这会导致预训练和生成自回归下游任务之间的不匹配。同时,继语言领域取得成功之后,自回归图像模型已被证明……
Memory-Retaining Finetuning via Distillation
这篇论文被 NeurIPS 2024 的“现代机器学习中的微调:原理和可扩展性 (FITML)”研讨会接受。在大量互联网文本上进行预训练的大型语言模型 (LLM) 拥有世界上的大量知识。在预训练之后,人们通常需要对某些能力进行持续的预训练,例如数学和编码,或“后训练”(又称对齐)技术,以使模型遵循用户的指示并使其与人类偏好保持一致。这些微调阶段的一个挑战是模型可能会丢失预训练知识……
Faster Algorithms for User-Level Private Stochastic Convex Optimization
我们研究用户级差分隐私 (DP) 约束下的隐私随机凸优化 (SCO)。在这种情况下,有 nnn 个用户,每个用户拥有 mmm 个数据项,我们需要保护每个用户整个数据项集合的隐私。现有的用户级 DP SCO 算法在许多大规模机器学习场景中都不切实际,因为:(i)它们对损失函数的平滑度参数做出了限制性假设,并要求用户数量随着参数空间的维数呈多项式增长;或(ii)它们的速度非常慢……
Private Online Learning via Lazy Algorithms
我们研究隐私在线学习问题,具体来说,就是专家在线预测 (OPE) 和在线凸优化 (OCO)。我们提出了一种新的转换方法,将惰性在线学习算法转换为隐私算法。我们利用现有的惰性算法将我们的转换应用于差异隐私 OPE 和 OCO,以解决这些问题。我们的最终算法获得了遗憾,这显著改善了高隐私制度 ε≪1\varepsilon \ll 1ε≪1 中的遗憾,获得 Tlogd+T1/3log(d)/ε2/3\sqrt{T \log d} + T^{1/3} \log(d)/\varepsilon^{2/3}Tlogd+T1/3log(d)/ε2/3 for…
Do LLMs Internally "Know" When They Follow Instructions?
本文被 NeurIPS 2024 的基础模型干预 (MINT) 研讨会接受。指令遵循对于构建具有大型语言模型 (LLM) 的 AI 代理至关重要,因为这些模型必须严格遵守用户提供的指南。然而,LLM 往往无法遵循哪怕是简单的指令。为了改善指令遵循行为并防止不良输出,我们需要更深入地了解 LLM 的内部状态与这些结果之间的关系。我们对 LLM 内部状态的分析揭示了输入嵌入空间中与成功相关的维度......