Apple机器学习研究领域信息情报检索---XiaoMi-AI

2024年12月6日 00:00

NeurIPS 2024 上的 Apple 机器学习研究

Apple Machine Learning Research at NeurIPS 2024

Apple 研究人员正在通过基础研究推动 ML 领域的发展，这些研究提高了世界对这项技术的理解，并有助于重新定义这项技术的可能性。这项工作可能会推动 Apple 产品和服务的进步，研究成果将通过出版物、开源资源以及参与行业和研究社区活动与更广泛的研究社区共享，其益处将超越 Apple 生态系统。下周，第 38 届神经信息处理系统 (NeurIPS) 年度会议将在加拿大温哥华举行……

2024年12月5日 00:00

欺骗你的多模态 LLM 有多容易？对欺骗性提示的实证分析

How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

多模态大型语言模型 (MLLM) 的显著进步并未使它们免受挑战，特别是在处理提示中的欺骗性信息的情况下，因此在这种情况下会产生幻觉反应。为了定量评估这种脆弱性，我们提出了 MAD-Bench，这是一个精心策划的基准，包含 1000 个测试样本，分为 5 个类别，例如不存在的对象、对象计数和空间关系。我们对流行的 MLLM 进行了全面分析，从 GPT-4v、Reka、Gemini-Pro 到开源模型……

2024年12月5日 00:00

联合设置中的私有和个性化频率估计

Private and Personalized Frequency Estimation in a Federated Setting

受用户设备上的下一个单词预测问题的启发，我们引入并研究了联合设置中的个性化频率直方图估计问题。在此问题中，在某些领域，每个用户都会从特定于该用户的分布中观察多个样本。目标是为所有用户计算用户分布的个性化估计，误差以 KL 散度来衡量。我们专注于解决两个核心挑战：统计异质性和用户隐私保护。我们解决问题的方法依赖于发现和利用类似的……

2024年12月3日 00:00

GENOT：熵 (Gromov) Wasserstein 流匹配及其在单细胞基因组学中的应用

GENOT: Entropic (Gromov) Wasserstein Flow Matching with Applications to Single-Cell Genomics

单细胞基因组学极大地促进了我们对细胞行为的理解，促进了治疗和精准医疗的创新。然而，单细胞测序技术本质上具有破坏性，只能同时测量有限的数据模式。这一限制凸显了对能够重新排列细胞的新方法的需求。最佳传输 (OT) 已成为一种有效的解决方案，但传统的离散求解器受到可扩展性、隐私和样本外估计问题的阻碍。这些挑战刺激了神经网络的发展……

2024年12月3日 00:00

利用周期性实现多模态情绪模式模型的稳健性

Leveraging Periodicity for Robustness with Multi-modal Mood Pattern Models

*平等贡献者来自可穿戴传感器的数据（例如心率、步数）可用于模拟情绪模式。我们使用多模态离散时间序列数据表征特征表示和建模策略，使用具有自然缺失的大型数据集（n=116,819 名参与者）进行情绪模式分类，使用 12 个可穿戴数据流，重点是捕捉数据的周期性趋势。综合考虑性能和鲁棒性，基于周期性的具有梯度提升模型的聚合特征表示优于其他表示和架构……

2024年12月3日 00:00

战略线性上下文老虎机

Strategic Linear Contextual Bandits

受战略代理操纵推荐系统以最大化向用户推荐的次数这一现象的启发，我们研究了线性上下文强盗问题的一个战略变体，其中手臂战略性地向学习者错误报告私下观察到的上下文。% 在战略背景操纵下。我们将算法设计问题视为不确定性下的 \emph{机制设计} 问题之一，并提出了乐观严峻触发机制 (OptGTM)，该机制可最大限度地减少遗憾，同时激励代理大致诚实。我们表明……

2024年12月3日 00:00

使用 LLM 实现时间序列推理

Towards Time-Series Reasoning with LLMs

多模态大型语言模型 (MLLM) 已在视觉等领域的理解和推理方面取得了许多进展，但我们尚未看到时间序列取得如此广泛的成功。尽管之前对时间序列 MLLM 的研究在时间序列预测中表现出色，但很少有研究展示 LLM 如何用于自然语言的时间序列推理。我们提出了一种新颖的多模态时间序列 LLM 方法，该方法可以学习跨各个领域的可推广信息，并具有强大的零样本性能。首先，我们在… 之上训练一个轻量级时间序列编码器

2024年12月3日 00:00

学习弹性成本以塑造 Monge 位移

Learning Elastic Costs to Shape Monge Displacements

给定一个由 Rd\mathbb{R}^dRd 支持的源和目标概率测量，Monge 问题旨在以最有效的方式将一个分布映射到另一个分布。这种效率通过定义源数据和目标数据之间的成本函数来量化。在机器学习文献中，这种成本通常默认设置为平方欧几里得距离，ℓ22(x,y)=12∥x−y∥22\ell^2_2(x,y)=\tfrac12\|x-y\|_2^2ℓ22(x,y)=21∥x−y∥22。使用弹性成本的好处，通过正则化器 τ\tauτ 定义为 c(x,y)=ℓ22(x,y)+τ(x−y)c(x, y)=\ell^2_2(x,y)+\tau(x-y)c(x,y)=ℓ22(x,y)+τ(x−y)，

2024年12月2日 00:00

Kaleido 扩散：使用自回归潜在模型改进条件扩散模型

Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling

扩散模型已成为从文本描述生成高质量图像的强大工具。尽管这些模型取得了成功，但它们在采样图像中通常表现出有限的多样性，尤其是在使用高无分类器指导权重进行采样时。为了解决这个问题，我们提出了 Kaleido，这是一种通过结合自回归潜在先验来增强样本多样性的新方法。Kaleido 集成了一个自回归语言模型，该模型对原始标题进行编码并生成潜在变量，作为抽象和中间表示……

2024年11月26日 00:00

语音不仅仅是单词：语音到文本翻译系统是否利用韵律？

Speech is More Than Words: Do Speech-to-Text Translation Systems Leverage Prosody?

这篇论文被 EMNLP 2024 的第九届机器翻译会议 (WMT24) 接受。口语的韵律，包括重音、语调和节奏等特征，会显著影响底层语义，从而也会影响其文本翻译。尽管如此，韵律很少在语音到文本翻译 (S2TT) 系统的背景下进行研究。特别是，端到端 (E2E) 系统被认为非常适合韵律感知翻译，因为它们在做出翻译决策时可以直接访问语音信号，但……

2024年11月21日 00:00

通过蒸馏实现记忆保留微调

Memory-Retaining Finetuning via Distillation

这篇论文被 NeurIPS 2024 的“现代机器学习中的微调：原理和可扩展性 (FITML)”研讨会接受。在大量互联网文本上进行预训练的大型语言模型 (LLM) 拥有世界上的大量知识。在预训练之后，人们通常需要对某些能力进行持续的预训练，例如数学和编码，或“后训练”（又称对齐）技术，以使模型遵循用户的指示并使其与人类偏好保持一致。这些微调阶段的一个挑战是模型可能会丢失预训练知识……

2024年11月21日 00:00

大型视觉编码器的多模态自回归预训练

Multimodal Autoregressive Pre-Training of Large Vision Encoders

*平等贡献者大型多模态模型中的主导范式是将大型语言解码器与视觉编码器配对。虽然众所周知如何为多模态任务预训练和调整语言解码器，但不太清楚应该如何预训练视觉编码器。事实上的标准是使用判别目标（例如对比损失）预训练视觉编码器。这会导致预训练和生成自回归下游任务之间的不匹配。同时，继语言领域取得成功之后，自回归图像模型已被证明……

2024年11月21日 00:00

Wasserstein 距离中的实例最优私有密度估计

Instance-Optimal Private Density Estimation in the Wasserstein Distance

从样本中估计分布的密度是统计学中的一个基本问题。在许多实际情况下，Wasserstein 距离是密度估计的合适误差度量。例如，在估计某个地理区域的人口密度时，较小的 Wasserstein 距离意味着估计值能够大致捕捉到人口质量的位置。在这项工作中，我们研究了 Wasserstein 距离中的差分隐私密度估计。我们设计并分析了可以适应简单实例的该问题的实例优化算法。对于分布……

2024年11月20日 00:00

通过惰性算法进行私有在线学习

Private Online Learning via Lazy Algorithms

我们研究隐私在线学习问题，具体来说，就是专家在线预测 (OPE) 和在线凸优化 (OCO)。我们提出了一种新的转换方法，将惰性在线学习算法转换为隐私算法。我们利用现有的惰性算法将我们的转换应用于差异隐私 OPE 和 OCO，以解决这些问题。我们的最终算法获得了遗憾，这显著改善了高隐私制度 ε≪1\varepsilon \ll 1ε≪1 中的遗憾，获得 Tlog⁡d+T1/3log⁡(d)/ε2/3\sqrt{T \log d} + T^{1/3} \log(d)/\varepsilon^{2/3}Tlogd+T1/3log(d)/ε2/3 for…

2024年11月20日 00:00

变换不变学习和 OOD 泛化的理论保证

Transformation-Invariant Learning and Theoretical Guarantees for OOD Generalization

在实践和理论上，对具有相同训练和测试分布的学习进行了广泛的研究。然而，在分布偏移下的统计学习中，仍有许多需要理解的地方。本文重点关注分布偏移设置，其中训练和测试分布可以通过（数据）转换图的类别相关联。我们为该框架启动了一项理论研究，研究了目标转换类别已知或未知的学习场景。我们建立了学习规则和算法简化以最小化经验风险……

2024年11月20日 00:00

LLM 是否在内部“知道”何时遵循指令？

Do LLMs Internally "Know" When They Follow Instructions?

本文被 NeurIPS 2024 的基础模型干预 (MINT) 研讨会接受。指令遵循对于构建具有大型语言模型 (LLM) 的 AI 代理至关重要，因为这些模型必须严格遵守用户提供的指南。然而，LLM 往往无法遵循哪怕是简单的指令。为了改善指令遵循行为并防止不良输出，我们需要更深入地了解 LLM 的内部状态与这些结果之间的关系。我们对 LLM 内部状态的分析揭示了输入嵌入空间中与成功相关的维度......

2024年11月20日 00:00

用于用户级私有随机凸优化的更快算法

Faster Algorithms for User-Level Private Stochastic Convex Optimization

我们研究用户级差分隐私 (DP) 约束下的隐私随机凸优化 (SCO)。在这种情况下，有 nnn 个用户，每个用户拥有 mmm 个数据项，我们需要保护每个用户整个数据项集合的隐私。现有的用户级 DP SCO 算法在许多大规模机器学习场景中都不切实际，因为：（i）它们对损失函数的平滑度参数做出了限制性假设，并要求用户数量随着参数空间的维数呈多项式增长；或（ii）它们的速度非常慢……

2024年11月20日 00:00

具有重尾的私有随机凸优化：通过简单归约实现近似最优性

Private Stochastic Convex Optimization with Heavy Tails: Near-Optimality from Simple Reductions

我们研究了具有重尾梯度的差分隐私随机凸优化 (DP-SCO) 问题，其中我们假设样本函数的 Lipschitz 常数上有 kthk^{\text{th}}kth 矩界限，而不是统一界限。我们提出了一种新的基于约简的方法，使我们能够在重尾设置中获得第一个最优利率（最多对数因子），在 (ε,δ)(\varepsilon, \delta)(ε,δ)-近似下实现误差 G2⋅1n+Gk⋅(dnε)1−1kG_2 \cdot \frac 1 {\sqrt n} + G_k \cdot (\frac{\sqrt d}{n\varepsilon})^{1 - \frac 1 k}G2⋅n1+Gk⋅(n