Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

战略线性上下文老虎机

Strategic Linear Contextual Bandits

受战略代理操纵推荐系统以最大化向用户推荐的次数这一现象的启发,我们研究了线性上下文强盗问题的一个战略变体,其中手臂战略性地向学习者错误报告私下观察到的上下文。% 在战略背景操纵下。我们将算法设计问题视为不确定性下的 \emph{机制设计} 问题之一,并提出了乐观严峻触发机制 (OptGTM),该机制可最大限度地减少遗憾,同时激励代理大致诚实。我们表明……

使用 LLM 实现时间序列推理

Towards Time-Series Reasoning with LLMs

多模态大型语言模型 (MLLM) 已在视觉等领域的理解和推理方面取得了许多进展,但我们尚未看到时间序列取得如此广泛的成功。尽管之前对时间序列 MLLM 的研究在时间序列预测中表现出色,但很少有研究展示 LLM 如何用于自然语言的时间序列推理。我们提出了一种新颖的多模态时间序列 LLM 方法,该方法可以学习跨各个领域的可推广信息,并具有强大的零样本性能。首先,我们在… 之上训练一个轻量级时间序列编码器

学习弹性成本以塑造 Monge 位移

Learning Elastic Costs to Shape Monge Displacements

给定一个由 Rd\mathbb{R}^dRd 支持的源和目标概率测量,Monge 问题旨在以最有效的方式将一个分布映射到另一个分布。这种效率通过定义源数据和目标数据之间的成本函数来量化。在机器学习文献中,这种成本通常默认设置为平方欧几里得距离,ℓ22(x,y)=12∥x−y∥22\ell^2_2(x,y)=\tfrac12\|x-y\|_2^2ℓ22​(x,y)=21​∥x−y∥22​。使用弹性成本的好处,通过正则化器 τ\tauτ 定义为 c(x,y)=ℓ22(x,y)+τ(x−y)c(x, y)=\ell^2_2(x,y)+\tau(x-y)c(x,y)=ℓ22​(x,y)+τ(x−y),

GENOT:熵 (Gromov) Wasserstein 流匹配及其在单细胞基因组学中的应用

GENOT: Entropic (Gromov) Wasserstein Flow Matching with Applications to Single-Cell Genomics

单细胞基因组学极大地促进了我们对细胞行为的理解,促进了治疗和精准医疗的创新。然而,单细胞测序技术本质上具有破坏性,只能同时测量有限的数据模式。这一限制凸显了对能够重新排列细胞的新方法的需求。最佳传输 (OT) 已成为一种有效的解决方案,但传统的离散求解器受到可扩展性、隐私和样本外估计问题的阻碍。这些挑战刺激了神经网络的发展……

利用周期性实现多模态情绪模式模型的稳健性

Leveraging Periodicity for Robustness with Multi-modal Mood Pattern Models

*平等贡献者来自可穿戴传感器的数据(例如心率、步数)可用于模拟情绪模式。我们使用多模态离散时间序列数据表征特征表示和建模策略,使用具有自然缺失的大型数据集(n=116,819 名参与者)进行情绪模式分类,使用 12 个可穿戴数据流,重点是捕捉数据的周期性趋势。综合考虑性能和鲁棒性,基于周期性的具有梯度提升模型的聚合特征表示优于其他表示和架构……

Kaleido 扩散:使用自回归潜在模型改进条件扩散模型

Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling

扩散模型已成为从文本描述生成高质量图像的强大工具。尽管这些模型取得了成功,但它们在采样图像中通常表现出有限的多样性,尤其是在使用高无分类器指导权重进行采样时。为了解决这个问题,我们提出了 Kaleido,这是一种通过结合自回归潜在先验来增强样本多样性的新方法。Kaleido 集成了一个自回归语言模型,该模型对原始标题进行编码并生成潜在变量,作为抽象和中间表示……

语音不仅仅是单词:语音到文本翻译系统是否利用韵律?

Speech is More Than Words: Do Speech-to-Text Translation Systems Leverage Prosody?

这篇论文被 EMNLP 2024 的第九届机器翻译会议 (WMT24) 接受。口语的韵律,包括重音、语调和节奏等特征,会显著影响底层语义,从而也会影响其文本翻译。尽管如此,韵律很少在语音到文本翻译 (S2TT) 系统的背景下进行研究。特别是,端到端 (E2E) 系统被认为非常适合韵律感知翻译,因为它们在做出翻译决策时可以直接访问语音信号,但……

通过蒸馏实现记忆保留微调

Memory-Retaining Finetuning via Distillation

这篇论文被 NeurIPS 2024 的“现代机器学习中的微调:原理和可扩展性 (FITML)”研讨会接受。在大量互联网文本上进行预训练的大型语言模型 (LLM) 拥有世界上的大量知识。在预训练之后,人们通常需要对某些能力进行持续的预训练,例如数学和编码,或“后训练”(又称对齐)技术,以使模型遵循用户的指示并使其与人类偏好保持一致。这些微调阶段的一个挑战是模型可能会丢失预训练知识……

Wasserstein 距离中的实例最优私有密度估计

Instance-Optimal Private Density Estimation in the Wasserstein Distance

从样本中估计分布的密度是统计学中的一个基本问题。在许多实际情况下,Wasserstein 距离是密度估计的合适误差度量。例如,在估计某个地理区域的人口密度时,较小的 Wasserstein 距离意味着估计值能够大致捕捉到人口质量的位置。在这项工作中,我们研究了 Wasserstein 距离中的差分隐私密度估计。我们设计并分析了可以适应简单实例的该问题的实例优化算法。对于分布……

大型视觉编码器的多模态自回归预训练

Multimodal Autoregressive Pre-Training of Large Vision Encoders

*平等贡献者大型多模态模型中的主导范式是将大型语言解码器与视觉编码器配对。虽然众所周知如何为多模态任务预训练和调整语言解码器,但不太清楚应该如何预训练视觉编码器。事实上的标准是使用判别目标(例如对比损失)预训练视觉编码器。这会导致预训练和生成自回归下游任务之间的不匹配。同时,继语言领域取得成功之后,自回归图像模型已被证明……

LLM 是否能很好地估计指令遵循中的不确定性?

Do LLMs Estimate Uncertainty Well in Instruction-Following?

这篇论文被 NeurIPS 2024 的安全生成 AI 研讨会 (SGAIW) 接受。大型语言模型 (LLM) 可以成为各个领域的有价值的个人 AI 代理,前提是它们能够精确遵循用户指令。然而,最近的研究表明 LLM 的指令遵循能力存在很大局限性,这引发了人们对其在高风险应用中的可靠性的担忧。准确评估 LLM 在遵守指示方面的不确定性对于降低部署风险至关重要。据我们所知,我们首次系统地评估了不确定性……

变换不变学习和 OOD 泛化的理论保证

Transformation-Invariant Learning and Theoretical Guarantees for OOD Generalization

在实践和理论上,对具有相同训练和测试分布的学习进行了广泛的研究。然而,在分布偏移下的统计学习中,仍有许多需要理解的地方。本文重点关注分布偏移设置,其中训练和测试分布可以通过(数据)转换图的类别相关联。我们为该框架启动了一项理论研究,研究了目标转换类别已知或未知的学习场景。我们建立了学习规则和算法简化以最小化经验风险……

LLM 是否在内部“知道”何时遵循指令?

Do LLMs Internally "Know" When They Follow Instructions?

本文被 NeurIPS 2024 的基础模型干预 (MINT) 研讨会接受。指令遵循对于构建具有大型语言模型 (LLM) 的 AI 代理至关重要,因为这些模型必须严格遵守用户提供的指南。然而,LLM 往往无法遵循哪怕是简单的指令。为了改善指令遵循行为并防止不良输出,我们需要更深入地了解 LLM 的内部状态与这些结果之间的关系。我们对 LLM 内部状态的分析揭示了输入嵌入空间中与成功相关的维度......

通过惰性算法进行私有在线学习

Private Online Learning via Lazy Algorithms

我们研究隐私在线学习问题,具体来说,就是专家在线预测 (OPE) 和在线凸优化 (OCO)。我们提出了一种新的转换方法,将惰性在线学习算法转换为隐私算法。我们利用现有的惰性算法将我们的转换应用于差异隐私 OPE 和 OCO,以解决这些问题。我们的最终算法获得了遗憾,这显著改善了高隐私制度 ε≪1\varepsilon \ll 1ε≪1 中的遗憾,获得 Tlog⁡d+T1/3log⁡(d)/ε2/3\sqrt{T \log d} + T^{1/3} \log(d)/\varepsilon^{2/3}Tlogd​+T1/3log(d)/ε2/3 for…

用于用户级私有随机凸优化的更快算法

Faster Algorithms for User-Level Private Stochastic Convex Optimization

我们研究用户级差分隐私 (DP) 约束下的隐私随机凸优化 (SCO)。在这种情况下,有 nnn 个用户,每个用户拥有 mmm 个数据项,我们需要保护每个用户整个数据项集合的隐私。现有的用户级 DP SCO 算法在许多大规模机器学习场景中都不切实际,因为:(i)它们对损失函数的平滑度参数做出了限制性假设,并要求用户数量随着参数空间的维数呈多项式增长;或(ii)它们的速度非常慢……

具有重尾的私有随机凸优化:通过简单归约实现近似最优性

Private Stochastic Convex Optimization with Heavy Tails: Near-Optimality from Simple Reductions

我们研究了具有重尾梯度的差分隐私随机凸优化 (DP-SCO) 问题,其中我们假设样本函数的 Lipschitz 常数上有 kthk^{\text{th}}kth 矩界限,而不是统一界限。我们提出了一种新的基于约简的方法,使我们能够在重尾设置中获得第一个最优利率(最多对数因子),在 (ε,δ)(\varepsilon, \delta)(ε,δ)-近似下实现误差 G2⋅1n+Gk⋅(dnε)1−1kG_2 \cdot \frac 1 {\sqrt n} + G_k \cdot (\frac{\sqrt d}{n\varepsilon})^{1 - \frac 1 k}G2​⋅n​1​+Gk​⋅(n

数据集分解:使用可变序列长度课程加快 LLM 训练

Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum

大型语言模型 (LLM) 通常在由固定长度的标记序列组成的数据集上进行训练。这些数据集是通过随机连接不同长度的文档,然后将它们分块为预定目标长度的序列 (concat-and-chunk) 来创建的。最近的注意力实现掩盖了跨文档注意力,减少了标记块的有效长度。此外,由于注意力的二次成本,对长序列的训练在计算上变得难以承受。在本研究中,我们引入了数据集分解,一种新颖的可变序列长度……

压缩的 LLM 会忘记知识吗?一项具有实际意义的实验研究

Do Compressed LLMs Forget Knowledge? An Experimental Study with Practical Implications

这篇论文被 NeurIPS 2024 的机器学习和压缩研讨会接受。压缩大型语言模型 (LLM) 通常会导致性能下降,尤其是对于知识密集型任务。在这项工作中,我们深入研究了压缩如何破坏 LLM 的固有知识以及可能的补救措施。我们首先对损害的性质提出两种猜想:一是某些知识在 LLM 压缩后被遗忘(或抹去),因此需要压缩模型从具有附加参数的数据中(重新)学习;另一个假设知识是内部的……