Apple机器学习研究领域信息情报检索---XiaoMi-AI

2025年1月14日 00:00

通过传输激活来控制语言和扩散模型

Controlling Language and Diffusion Models by Transporting Activations

大型生成模型的功能不断增强，部署范围也越来越广，这引发了人们对其可靠性、安全性和潜在滥用的担忧。为了解决这些问题，最近的研究提出通过控制模型激活来控制模型生成，以便有效地诱导或防止生成输出中出现概念或行为。在本文中，我们介绍了激活传输 (AcT)，这是一个由最佳传输理论指导的激活控制通用框架，它概括了许多以前的激活控制工作。AcT 是……

2025年1月13日 00:00

KG-TRICK：统一文本和关系信息知识完成多语言知识图谱

KG-TRICK: Unifying Textual and Relational Information Completion of Knowledge for Multilingual Knowledge Graphs

多语言知识图谱 (KG) 为各种 NLP 应用程序提供高质量的关系和文本信息，但它们通常不完整，尤其是在非英语语言中。先前的研究表明，结合不同语言的 KG 信息有助于知识图谱完成 (KGC)（预测实体之间缺失关系的任务）或知识图谱增强 (KGE)（预测实体缺失的文本信息的任务）。尽管之前的研究已经将 KGC 和 KGE 视为独立的任务，但我们假设它们是……

2025年1月10日 00:00

指纹识别代码与几何学相遇：改进隐私查询发布和自适应数据分析的下限

Fingerprinting Codes Meet Geometry: Improved Lower Bounds for Private Query Release and Adaptive Data Analysis

指纹代码是证明差分隐私下限的重要工具。它们已用于证明几个基本问题的严格下限，尤其是在“低准确度”制度下。然而，与重构/差异方法不同，它们更适合证明最坏情况下限，用于自然产生于指纹代码构造的查询集。在这项工作中，我们提出了一个证明指纹类型下限的通用框架，该框架允许我们根据查询集的几何形状定制该技术。我们的方法允许我们……

2025年1月9日 00:00

SLiCK：利用子序列进行长度受限的关键字识别

SLiCK: Exploiting Subsequences for Length-Constrained Keyword Spotting

在资源受限的边缘设备上进行用户定义的关键字识别具有挑战性。但是，关键字通常受最大关键字长度的限制，这在以前的工作中基本上没有得到充分利用。我们对关键字长度分布的分析表明，用户定义的关键字识别可以视为长度受限的问题，从而无需对可变文本长度进行聚合。这导致了我们提出的高效关键字识别方法 SLiCK（利用子序列进行长度受限的关键字识别）。我们进一步引入了子序列级匹配方案来……

2025年1月9日 00:00

私人重复和元选择中的隐私计算权衡

Privacy-Computation Trade-offs in Private Repetition and Metaselection

私有重复算法将成功概率为恒定的差分私有算法作为输入，并将其提升为成功概率较高的算法。这些算法与与众多私有算法中的最佳算法竞争的私有元选择算法以及与私有学习算法的最佳超参数设置竞争的私有超参数调整算法密切相关。这些任务的现有算法要么在隐私成本上付出了巨大的开销，要么在计算成本上付出了巨大的开销。在这项工作中，我们展示了强下限......

2025年1月6日 00:00

3D 形状标记化

3D Shape Tokenization

我们引入了形状标记，这是一种连续、紧凑且易于集成到机器学习模型中的 3D 表示。形状标记用作条件向量，表示 3D 流匹配模型中的形状信息。此流匹配模型经过训练，可以近似对应于集中在 3D 形状表面上的 delta 函数的概率密度函数。通过将形状标记整合到各种机器学习模型中，我们可以生成新形状、将图像转换为 3D、将 3D 形状与文本和图像对齐，并直接在变量处渲染形状……

2024年12月18日 00:00

使用 ReDrafter 加速 NVIDIA GPU 上的 LLM 推理

Accelerating LLM Inference on NVIDIA GPUs with ReDrafter

加速 LLM 推理是一个重要的 ML 研究问题，因为自回归 token 生成计算成本高且相对较慢，而提高推理效率可以减少用户的延迟。除了持续努力加速 Apple 芯片上的推理之外，我们最近在加速 NVIDIA GPU 的 LLM 推理方面取得了重大进展，该 GPU 广泛用于整个行业的生产应用程序。今年早些时候，我们发布并开源了 Recurrent Drafter (ReDrafter)，这是一种新颖的推测解码方法，达到了最先进的水平……

2024年12月17日 00:00

ARMADA：用于机器人操控和无机器人数据采集的增强现实

ARMADA: Augmented Reality for Robot Manipulation and Robot-Free Data Acquisition

机器人模仿学习的远程操作受到硬件可用性的瓶颈。没有物理机器人，可以收集高质量的机器人数据吗？我们提出了一个通过实时虚拟机器人反馈增强 Apple Vision Pro 的系统。通过让用户直观地了解他们的动作如何转化为机器人动作，我们能够收集与物理机器人硬件的限制兼容的自然徒手人类数据。我们对 15 名参与者进行了一项用户研究，在 3 种不同的反馈条件下分别演示了 3 个不同的任务，并且……

2024年12月11日 00:00

BayesCNS：一种统一的贝叶斯方法，用于解决大规模搜索系统中的冷启动和非平稳性问题

BayesCNS: A Unified Bayesian Approach to Address Cold Start and Non-Stationarity in Search Systems at Scale

搜索和推荐平台中使用的信息检索 (IR) 系统经常采用学习排序 (LTR) 模型来对响应用户查询的项目进行排序。这些模型严重依赖从用户交互中获得的特征，例如点击和参与度数据。这种依赖性为缺乏用户参与度的项目带来了冷启动问题，并带来了适应用户行为随时间变化的挑战。我们将这两个挑战作为在线学习问题全面解决，并提出了 BayesCNS，这是一种旨在处理冷启动和… 的贝叶斯方法

2024年12月10日 00:00

评估预训练和即时适应语言模型之间的性别偏见转移

Evaluating Gender Bias Transfer between Pre-trained and Prompt-Adapted Language Models

*平等贡献者大型语言模型 (LLM) 越来越多地被调整以实现任务特异性，以便在现实世界的决策系统中部署。之前的几项研究通过研究微调适应策略对模型公平性的影响，调查了偏见转移假设 (BTH)，发现在使用微调进行调整时，预训练的屏蔽语言模型中的公平性对模型公平性的影响有限。在这项工作中，我们将 BTH 的研究扩展到提示适应下的因果模型，因为提示是一种可访问且计算效率高的方式来部署……

2024年12月8日 00:00

异步私有联邦学习中的动量近似

Momentum Approximation in Asynchronous Private Federated Learning

这篇论文被接受在与 NeurIPS 2024 联合举办的联邦基础模型国际研讨会 (FL@FM-NeurIPS'24) 上发表。异步协议已被证明可以提高具有大量客户端的联邦学习 (FL) 的可扩展性。同时，基于动量的方法可以在同步 FL 中实现最佳模型质量。然而，在异步 FL 算法中天真地应用动量会导致收敛速度变慢和模型性能下降。目前还不清楚如何有效地将这两种技术结合在一起以实现双赢……

2024年12月6日 00:00

神经信息处理系统 (NeurIPS) 2024

Neural Information Processing Systems (NeurIPS) 2024

Apple 将在 12 月 10 日至 15 日在加拿大温哥华举行的神经信息处理系统 (NeurIPS) 年度会议上展示新研究成果。我们很荣幸再次赞助这个多轨跨学科会议，该会议将围绕机器学习聚集科学和工业研究社区。以下是 Apple 参加 NeurIPS 2024 的概述。

2024年12月6日 00:00

NeurIPS 2024 上的 Apple 机器学习研究

Apple Machine Learning Research at NeurIPS 2024

Apple 研究人员正在通过基础研究推动 ML 领域的发展，这些研究提高了世界对这项技术的理解，并有助于重新定义这项技术的可能性。这项工作可能会推动 Apple 产品和服务的进步，研究成果将通过出版物、开源资源以及参与行业和研究社区活动与更广泛的研究社区共享，其益处将超越 Apple 生态系统。下周，第 38 届神经信息处理系统 (NeurIPS) 年度会议将在加拿大温哥华举行……

2024年12月5日 00:00

欺骗你的多模态 LLM 有多容易？对欺骗性提示的实证分析

How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

多模态大型语言模型 (MLLM) 的显著进步并未使它们免受挑战，特别是在处理提示中的欺骗性信息的情况下，因此在这种情况下会产生幻觉反应。为了定量评估这种脆弱性，我们提出了 MAD-Bench，这是一个精心策划的基准，包含 1000 个测试样本，分为 5 个类别，例如不存在的对象、对象计数和空间关系。我们对流行的 MLLM 进行了全面分析，从 GPT-4v、Reka、Gemini-Pro 到开源模型……

2024年12月5日 00:00

联合设置中的私有和个性化频率估计

Private and Personalized Frequency Estimation in a Federated Setting

受用户设备上的下一个单词预测问题的启发，我们引入并研究了联合设置中的个性化频率直方图估计问题。在此问题中，在某些领域，每个用户都会从特定于该用户的分布中观察多个样本。目标是为所有用户计算用户分布的个性化估计，误差以 KL 散度来衡量。我们专注于解决两个核心挑战：统计异质性和用户隐私保护。我们解决问题的方法依赖于发现和利用类似的……

2024年12月3日 00:00

利用周期性实现多模态情绪模式模型的稳健性

Leveraging Periodicity for Robustness with Multi-modal Mood Pattern Models

*平等贡献者来自可穿戴传感器的数据（例如心率、步数）可用于模拟情绪模式。我们使用多模态离散时间序列数据表征特征表示和建模策略，使用具有自然缺失的大型数据集（n=116,819 名参与者）进行情绪模式分类，使用 12 个可穿戴数据流，重点是捕捉数据的周期性趋势。综合考虑性能和鲁棒性，基于周期性的具有梯度提升模型的聚合特征表示优于其他表示和架构……

2024年12月3日 00:00

使用 LLM 实现时间序列推理

Towards Time-Series Reasoning with LLMs

多模态大型语言模型 (MLLM) 已在视觉等领域的理解和推理方面取得了许多进展，但我们尚未看到时间序列取得如此广泛的成功。尽管之前对时间序列 MLLM 的研究在时间序列预测中表现出色，但很少有研究展示 LLM 如何用于自然语言的时间序列推理。我们提出了一种新颖的多模态时间序列 LLM 方法，该方法可以学习跨各个领域的可推广信息，并具有强大的零样本性能。首先，我们在… 之上训练一个轻量级时间序列编码器

2024年12月3日 00:00

学习弹性成本以塑造 Monge 位移

Learning Elastic Costs to Shape Monge Displacements

给定一个由 Rd\mathbb{R}^dRd 支持的源和目标概率测量，Monge 问题旨在以最有效的方式将一个分布映射到另一个分布。这种效率通过定义源数据和目标数据之间的成本函数来量化。在机器学习文献中，这种成本通常默认设置为平方欧几里得距离，ℓ22(x,y)=12∥x−y∥22\ell^2_2(x,y)=\tfrac12\|x-y\|_2^2ℓ22(x,y)=21∥x−y∥22。使用弹性成本的好处，通过正则化器 τ\tauτ 定义为 c(x,y)=ℓ22(x,y)+τ(x−y)c(x, y)=\ell^2_2(x,y)+\tau(x-y)c(x,y)=ℓ22(x,y)+τ(x−y)，