Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

在不断发展的世界中学习的障碍:对可塑性丧失的数学理解

Barriers for Learning in an Evolving World: Mathematical Understanding of Loss of Plasticity

深度学习模型在静态数据中表现出色,但由于可塑性损失 (LoP) 的现象(即未来学习能力的下降),在非静态环境中表现不佳。这项工作提出了基于梯度的学习中 LoP 的第一原理研究。基于动力系统理论,我们通过识别参数空间中捕获梯度轨迹的稳定流形来正式定义 LoP。我们的分析揭示了创建这些陷阱的两种主要机制:来自激活饱和的冻结单元和来自代表性的克隆单元流形......

taser:通过系统评估和推理的翻译评估

TASER: Translation Assessment via Systematic Evaluation and Reasoning

我们引入 TASER(通过系统评估和推理进行翻译评估),这是一种使用大型推理模型 (LRM) 进行自动翻译质量评估的指标。 TASER 利用 LRM 的显式推理能力对翻译质量进行系统、逐步的评估。我们在基于参考和无参考场景的 WMT24 指标共享任务上评估 TASER,展示了最先进的性能。在系统级评估中,TASER 在基于参考和无参考的设置中均实现了最高的软成对精度……

计算最佳量化感知培训

Compute-Optimal Quantization-Aware Training

量化感知训练(QAT)是提高量化神经网络准确性的领先技术。 PREVI-OUS的工作表明,将训练分解为完整精确阶段(FP)阶段,随后与单独的QAT相比,QAT阶段可产生出色的验证。但是,FP和QAT相之间的计算的最佳分配仍然是未开关的。我们通过各种计算预算,QAT位宽度和型号尺寸从86.0m到2.2B进行了广泛的实验,以研究不同的QAT持续时间如何影响最终性能。我们证明了这一点,与以前的发现相反,…

生成和对比图表示学习

Generative and Contrastive Graph Representation Learning

图表上的自我监督学习(SSL)生成节点和图表表示(即嵌入),可用于下游任务,例如节点分类,节点群集和链接预测。 Graph SSL在有限或没有标记数据的方案中特别有用。现有的SSL方法主要遵循对比度或生成范式,在不同的任务中均出色:对比方法通常在分类任务上表现良好,而生成方法通常在链接预测中表现出色。在本文中,我们提出了一个集成的图形SSL的新颖架构……

personateaming:探索引入角色如何改善自动化的AI红色团队

PersonaTeaming: Exploring How Introducing Personas Can Improve Automated AI Red-Teaming

在Neurips 20225的有关可调节的ML(REML)的研讨会上接受了本文。AI治理和安全研究的持续发展呼吁采用红色团队的方法,这些方法可以有效地表现出AI模型带来的潜在潜在风险。这些呼吁中的许多人都强调了红色团队的身份和背景如何塑造他们的红色团队策略,从而可能会发现各种风险。虽然自动红色团队的方法有望通过对模型行为进行大规模探索来补充人类红色团队,但当前的方法不考虑角色……

最佳数据混合物的缩放定律

Scaling Laws for Optimal Data Mixtures

大型基础模型通常对来自多个域的数据进行培训,数据混合物(所使用的每个域的比例)在模型性能中发挥着关键作用。选择这种混合物的标准方法取决于反复试验,这对于大规模预处理而言是不切实际的。我们提出了一种系统的方法,可以使用缩放定律确定任何目标域的最佳数据混合物。我们的方法准确地预测了用D令牌和特定域重量向量h训练的大小N模型的丢失。我们通过…

利用视听数据来减少自我监管的语音模型中的多语言差距

Leveraging Audio-Visual Data to Reduce the Multilingual Gap in Self-Supervised Speech Models

自学学习(SSL)在语音表示学习方面取得了重大进步。 WAV2VEC 2.0和Hubert等模型已经实现了最先进的结果,诸如语音识别之类的任务,尤其是在单语言环境中。但是,多语言SSL模型倾向于在每种语言上表现不佳,尤其是在具有双语设置等语言的多语言场景中。在这项工作中,我们通过将有限的视觉接地引入双语语音SSL模型来研究一种新的方法来减少这种性能差距。我们的…

简单折:折叠蛋白比您想象的要简单

SimpleFold: Folding Proteins is Simpler than You Think

蛋白质折叠模型已经取得了开创性的结果,自Alphafold2引入以来,通常是通过将域膨胀到其建筑设计和训练管道的结合构建的。尽管如此,考虑到在不同但相关的问题上的生成模型的特征,很自然地质疑这些架构设计是否需要建立性能模型。在本文中,我们介绍了SimpleFold,这是仅使用通用变压器层的第一个基于流量匹配的蛋白折叠模型。而不是依靠昂贵的……

RACTENTION:朝向局部全球注意模型的最小滑动窗口尺寸

RATTENTION: Towards the Minimal Sliding Window Size in Local-Global Attention Models

局部全球注意模型最近已成为标准变压器的引人注目的替代方案,有望提高训练和推理效率。但是,窗口尺寸的关键选择给出了帕累托的权衡:较大的窗户保持性能类似于全部关注,但在短上下文的情况下提供了最小的效率提高,而较小的窗户可以导致性能退化。当前的模型(例如Gemma2和Mistral)采用了保守的窗户尺寸(例如,在8192预算后的长度中4096)来保持性能。这项工作调查了……

可识别的多视因果发现而没有非高斯性

Identifiable Multi-View Causal Discovery Without Non-Gaussianity

我们在多视图结构方程模型(SEM)的框架中提出了一种新型的线性因果发现方法。我们提出的模型通过假设差异多样性而不是视图,从而使非高斯干扰的众所周知的假设更加广泛地适用。我们证明了模型的所有参数的可识别性,而没有对SEM的结构进行任何进一步的假设。我们进一步提出了一种基于多视图独立组件分析(ICA)的最新进展的估计算法。提出的方法是…

苹果自然语言和交互式系统的研讨会2025

Apple Workshop on Natural Language and Interactive Systems 2025

自然语言处理(NLP)仍然是AI中最快发展的领域之一,因为新的研究继续迅速推进大型语言模型(LLMS),语音识别和发电的系统,语言代理等。这项技术对于当今的许多AI体验至关重要,包括Apple Intelligence和Siri,NLP的基础研究将是对未来AI的基础。Apple最近主持了关于自然语言和互动系统的研讨会,将Apple和学术研究社区的成员聚集在两天的活动中,重点是最近……

atoken:视觉的统一令牌

AToken: A Unified Tokenizer for Vision

我们介绍了Atoken,这是第一个跨图像,视频和3D资产的高保真重建和语义理解的统一视觉令牌。与专门研究单个模式的重建或理解的现有图形不同,atoken将这些不同的视觉输入编码为共享的4D潜在空间,在单个框架中统一任务和模态。具体而言,我们引入了带有4D旋转位置嵌入的纯变压器体系结构,以处理任意分辨率和时间持续时间的视觉输入。确保稳定…

通过无法区分的镜头进行校准

Calibration through the Lens of Indistinguishability

校准是预测文献中的经典概念,旨在解决以下问题:如何解释预测的概率?在我们只能观察(离散)结果的世界中,我们应该如何评估一个预测因子,该预测因素假设(连续)概率超过了可能的结果?鉴于机器学习中概率预测的无处不在,对校准的研究激增了最近的兴趣。这项调查描述了有关如何定义和衡量校准误差的基础问题的最新工作,这些措施对…

Epicache:长时间对话问题的情节KV缓存管理

EpiCache: Episodic KV Cache Management for Long Conversational Question Answering

大型语言模型(LLM)的最新进展具有扩展的上下文长度,使助手能够维持长长的历史,以获得连贯的个性化回应。但是,这种能力取决于键值(KV)缓存,其内存随对话长度线性增长,并在严格的资源约束下迅速占主导地位。 KV缓存压缩是减少此开销的积极研究线,该研究旨在限制缓存大小的同时保持准确性。然而,现有方法面临两个主要局限性:(i)在全文预填充后驱逐条目会导致无限的峰值内存,以及(ii)…

mm空间:在多模式LLMS中探索3D空间理解

MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs

多模式的大语言模型(MLLM)在2D视觉理解中出色,但在推理3D空间的能力方面仍然有限。在这项工作中,我们利用带有开放设定注释的大规模高质量3D场景数据来介绍1)新型监督的微调数据集和2)一个新的评估基准,重点是室内场景。我们将任何VQA(CA-VQA)数据的内容涵盖了各种空间任务,包括空间关系预测,度量大小和距离估计以及3D接地。我们表明,CA-VQA使我们能够训练MM-Spatial,这是一个强大的通才MLLM,也……

第一个归一化不完整力矩的替代统计推断

Alternative Statistical Inference for the First Normalized Incomplete Moment

本文重新检查了第一个规范化的不完整时刻,这是对经济和社会科学中广泛应用的不平等现象的衡量标准。尽管措施本身很普遍,但现有的统计推断似乎落后于现代分析的需求。为了填补这一空白,我们提出了一种替代解决方案,该解决方案具有直观的,计算上的高效,数学上等效于“标准”情况的现有解决方案,并且易于适应“非标准”。证明了所提出的方法的理论和实际优势……

清单比对齐语言模型的奖励模型更好

Checklists Are Better Than Reward Models For Aligning Language Models

语言模型必须进行调整以了解和遵循用户说明。强化学习被广泛用于促进这一点 - 通常使用诸如“帮助”和“有害性”之类的固定标准。在我们的工作中,我们建议使用灵活的,特定于指导的标准作为扩大强化学习在引起跟随教学方面产生的影响的手段。我们建议“从清单反馈中学习”(RLCF)。从说明中,我们提取清单并评估响应对每个项目的满足程度 - 使用AI法官和专业人士…

slowfast-llava-1.5:一个代币高效的视频大型语言模型,用于长期视频理解

SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding

我们介绍了一个慢速fast-llava-1.5(缩写为sf-llava-1.5),这是一个视频大型语言模型(LLMS)的家族,提供具有令牌有效的解决方案,以进行长形式的视频理解。我们将两流的慢速机制纳入流线型训练管道中,并在仅策划的仅公开数据集的数据混合物中执行联合视频图像培训。我们的主要重点是高效的模型量表(1B和3B),表明即使是相对较小的视频LLM也可以在视频理解上实现最新的性能,满足对…