Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

大型语言模型有英语口音吗?评估和改善多语言LLMS的自然性

Do Large Language Models Have an English Accent? Evaluating and Improving the Naturalness of Multilingual LLMs

当前的大型语言模型(LLMS)主要是用英语设计为主要语言的,即使是多语言的少数语言也倾向于表现出强烈的以英语为中心的偏见。就像在学习第二语言时可能会产生尴尬表情的演讲者一样,LLM通常会以非英语语言产生不自然的输出,反映了词汇和语法中以英语为中心的模式。尽管这个问题很重要,但多语言LLM输出的自然性受到了有限的关注。在本文中,我们通过引入新颖的自动……

StreamBridge:将您的离线视频大型语言模型变成主动的流媒体

StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant

我们提出了StreamBridge,这是一个简单而有效的框架,无缝地将离线视频插件转换为具有流能力的模型。它解决了将现有模型调整为在线方案的两个基本挑战:(1)有限的实时理解能力有限,以及(2)缺乏主动的响应机制。具体而言,StreamBridge结合了(1)一个内存缓冲区,并结合了一个圆形截止的压缩策略,支持长篇小说多转变的交互,以及(2)一个可以毫不费力地集成到现有的…

matrix3d:大型摄影测量模型多合一

Matrix3D: Large Photogrammetry Model All-in-One

我们提出了Matrix3d,这是一种执行多个摄影测量子任务的统一模型,包括使用相同的模型使用姿势估计,深度预测和新型视图合成。 MATRIX3D利用多模式扩散变压器(DIT)来整合几种模态的转换,例如图像,相机参数和深度图。 MATRIX3D大规模多模式训练的关键在于结合面具学习策略。即使有部分完整的数据,例如图像置态和图像深度对的双模式数据也可以实现全模式模型训练……

无分类器指导是一个预测器 - 校准

Classifier-Free Guidance is a Predictor-Corrector

我们研究了无分类器指导(CFG)的理论基础。 CFG是文本对图像扩散模型的条件采样的主要方法,但与扩散的其他方面不同,它仍然保持在摇摇欲坠的理论基础上。在本文中,我们通过证明CFG与DDPM(Ho等,2020)和DDIM(Song等,2021)的相互作用来反驳共同的误解,并且CFG都不会产生gamma驱动的分布P(x | c)^γp(x)^γp(x)^{1- = {1-γ}。然后,我们通过证明它是一种预测器 - 矫正器方法来阐明CFG的行为(Song等,2020)…

联邦分析的本地泛私人物

Local Pan-Privacy for Federated Analytics

Pan-Privacy。 (2010年)作为设计私人分析系统的方法,该系统在面对暴露系统内部状态的入侵中保留其隐私属性。在联邦遥测应用程序中,我们研究了当地的泛滥,在该广场上应保留在一再对当地国家的未经通知的侵犯下保留的隐私。我们考虑了监视联合系统中事件计数的问题,在该系统中,即使在该设备上的入侵者中,也应隐藏在本地设备上的事件。我们表明,在合理的约束下,…

提高了私人非齿非convex优化的样本复杂性

Improved Sample Complexity for Private Nonsmooth Nonconvex Optimization

我们研究了既不光滑也不平稳的随机目标和经验目标的差异私有(DP)优化算法,并提出了返回戈德斯坦 - 安置点具有样本复杂性界限的方法,这些方法是改善现有工作的样本复杂性。 (α,β)(\ alpha,\ beta)(α,β) - 只要数据集大小…

扩散模型的投射组成机制

Mechanisms of Projective Composition of Diffusion Models

我们研究了扩散模型中组成的理论基础,特别着眼于分布外的外推和长度将军。先前的工作表明,通过线性得分组合组成分布可以实现有希望的结果,包括在某些情况下(Du等,2023; Liu等,2022)。但是,我们对这些构图如何以及为什么起作用的理论理解仍然不完整。实际上,甚至还不清楚组成的“工作”意味着什么。本文开始解决这些基本差距。我们从…

基于LLM的方法用于审查App Store上的摘要

An LLM-Based Approach to Review Summarization on the App Store

评分和评论是探索应用程序商店中应用程序的用户的宝贵资源,提供了有关其他人如何体验应用程序的见解。通过iOS 18.4中的评论摘要,用户可以快速获得其他用户对应用程序的看法的高级概述,同时仍然可以选择介绍个人评论以获取更多详细信息。此功能由一个新颖的基于LLM的新型系统提供动力,该系统会定期汇总用户评论。我们生成评论摘要的目标是确保它们具有包容性,平衡并准确地反映用户的声音。到…

如何验证任何(合理的)分发属性:分布的计算声音参数系统

How to Verify Any (Reasonable) Distribution Property: Computationally Sound Argument Systems for Distributions

随着统计分析对科学,工业和社会的核心越来越重要,因此越来越需要确保其结果的正确性。可以通过复制整个分析来验证近似正确性,但是我们可以在不复制的情况下验证吗?在最新工作的基础上,我们研究了允许概率验证者确定分析结果的证明系统近似正确,同时绘制较少的样本和使用较少的计算资源来复制分析所需的计算资源。我们专注于分发测试问题:验证…

ICLR 2025

Apple Machine Learning Research at ICLR 2025

苹果研究人员正在通过基础研究来推进机器学习(ML)和AI,从而提高了世界对这项技术的理解,并有助于重新定义它的可能性。为了支持更广泛的研究社区并帮助加速该领域的进步,我们通过出版物,开源资源和会议的参与分享我们的大部分研究。本周,第十三国际学习代表会议(ICLR)将在新加坡举行。 ICLR汇集了深度学习和代表性应用的主要专家……

fastvlm:视觉语言模型的有效愿景

FastVLM: Efficient Vision encoding for Vision Language Models

缩放输入图像分辨率对于增强视觉语言模型(VLM)的性能至关重要,尤其是在文本丰富的图像理解任务中。但是,由于大量令牌和高度编码延迟,流行的视觉编码器(例如VIT)在高分辨率下效率低下。在不同的操作分辨率下,可以沿两个轴优化VLM的视觉编码器:减少编码延迟并最小化传递给LLM的视觉令牌的数量,从而降低整体延迟。基于对互动的综合效率分析…

与Gromov-Monge Gap

Disentangled Representational Learning with the Gromov-Monge Gap

从未标记的数据中学习分离的表示形式是机器学习的基本挑战。解决它可能会解散其他问题,例如概括,可解释性或公平性。尽管理论上要解决的问题非常具有挑战性,但在实践中通常通过先前的匹配实现了分解。此外,最近的作品表明,可以通过学习保留数据的几何特征(例如距离或点之间的角度)来利用几何考虑来增强先前的匹配方法。但是,匹配先前…

国际学习表征会议(ICLR)2025

International Conference on Learning Representations (ICLR) 2025

苹果将赞助国际学习代表会议(ICLR),该会议将于2025年4月24日至28日在新加坡举行。 ICLR汇集了致力于进步深度学习的专业人员。

天然多模型模型的缩放定律

Scaling Laws for Native Multimodal Models

建立可以通过多模式信号有效地感知世界的通用模型一直是一个长期目标。当前的方法涉及分别整合预训练的组件,例如将视觉编码器连接到LLMS和持续的多模式训练。尽管这种方法表现出显着的样本效率,但仍然是一个悬而未决的问题,这是否本质上是优越的。在这项工作中,我们重新审视了本地多模型(NMM)的建筑设计 - 从头开始​​训练的人 - 并进行广泛的……

逐步扩散:基本教程

Step-by-Step Diffusion: An Elementary Tutorial

我们提供了一门关于扩散模型数学和机器学习流程匹配的可访问的第一门课程。我们的目标是尽可能简单地教授扩散,以最少的数学和机器学习先决条件,但足够的技术细节来理解其正确性。与大多数有关该主题的教程不同,我们既不采用变异自动编码器(VAE),也不采用随机微分方程(SDE)方法。实际上,对于核心思想,我们将不需要任何SDE,基于证据的降低器(ELBOS),Langevin Dynamics,甚至分数的概念。读者只需要…

通过自回归模型适应的扩散语言模型

Scaling Diffusion Language Models via Adaptation from Autoregressive Models

扩散语言模型(DLM)已成为文本生成建模的有希望的新范式,有可能解决自回归(AR)模型的局限性。但是,与AR同行相比,当前的DLM的规模较小,并且缺乏对语言建模基准测试的公平比较。此外,从头开始的训练扩散模型仍然具有挑战性。鉴于开源AR语言模型的流行率,我们建议适应这些模型来构建文本扩散模型。我们演示了AR和扩散建模目标之间的联系以及…

飞镖:可扩展文本到图像生成的自动回归变压器

DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation

扩散模型已成为视觉产生的主要方法。他们是通过deno培训的马尔可夫工艺,该过程逐渐为输入增加了噪音。我们认为,马尔可夫的财产限制了该模型充分利用生成轨迹的能力,从而导致训练和推理期间效率低下。在本文中,我们提出了DART,这是一种基于变压器的模型,该模型统一自回归(AR)和非马克维亚框架内的扩散。飞镖迭代地将图像贴片在空间和光谱上使用与标准相同的架构相同的AR模型

tis-dpo:直接偏好优化的令牌级别的重要性采样

TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization

直接偏好优化(DPO)由于其简单性和有效性而被广泛采用大型语言模型(LLMS)的偏好对齐。但是,DPO被推导为匪徒问题,其中整个响应被视为单臂,忽略了令牌之间的重要性差异,这可能会影响优化效率,并且使得难以实现最佳结果。在这项工作中,我们建议DPO的最佳数据在获胜和失去响应方面的每个代币都具有相同的预期奖励,因为令牌重要性没有差异。但是,由于…