Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

cubify任何东西:缩放室内3D对象检测

Cubify Anything: Scaling Indoor 3D Object Detection

我们考虑了从商品手持设备中获取的单个RGB(-d)帧的室内3D对象检测。我们试图在数据和建模方面显着提高现状。首先,我们确定现有数据集对对象的规模,准确性和多样性有重大限制。结果,我们介绍了Cubify-任何1M(CA-1M)数据集,该数据集在超过1K的高度精确的激光扫描场景上详尽地标记了超过400K的3D对象,并将其接近完美的注册标记为超过3.5k手持式手持式捕获。接下来,我们建立Cubify Transformer…

人类政策〜人类政策

Humanoid Policy ~ Human Policy

针对人形机器人的培训操纵政策会涉及数据,从而增强了其跨任务和平台的稳健性和泛化。但是,仅从机器人示范中学习是劳动密集型的,需要昂贵的远程操作数据收获,这很难扩展。本文研究了更可扩展的数据源,即中心的人类示范,以作为机器人学习的跨体型培训数据。我们从数据和建模观点来减轻人形生物与人类之间的实施差距。我们收集了一个以egipentric任务为导向的数据集(PH2D)…

大型语言模型有英语口音吗?评估和改善多语言LLMS的自然性

Do Large Language Models Have an English Accent? Evaluating and Improving the Naturalness of Multilingual LLMs

当前的大型语言模型(LLMS)主要是用英语设计为主要语言的,即使是多语言的少数语言也倾向于表现出强烈的以英语为中心的偏见。就像在学习第二语言时可能会产生尴尬表情的演讲者一样,LLM通常会以非英语语言产生不自然的输出,反映了词汇和语法中以英语为中心的模式。尽管这个问题很重要,但多语言LLM输出的自然性受到了有限的关注。在本文中,我们通过引入新颖的自动……

StreamBridge:将您的离线视频大型语言模型变成主动的流媒体

StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant

我们提出了StreamBridge,这是一个简单而有效的框架,无缝地将离线视频插件转换为具有流能力的模型。它解决了将现有模型调整为在线方案的两个基本挑战:(1)有限的实时理解能力有限,以及(2)缺乏主动的响应机制。具体而言,StreamBridge结合了(1)一个内存缓冲区,并结合了一个圆形截止的压缩策略,支持长篇小说多转变的交互,以及(2)一个可以毫不费力地集成到现有的…

matrix3d:大型摄影测量模型多合一

Matrix3D: Large Photogrammetry Model All-in-One

我们提出了Matrix3d,这是一种执行多个摄影测量子任务的统一模型,包括使用相同的模型使用姿势估计,深度预测和新型视图合成。 MATRIX3D利用多模式扩散变压器(DIT)来整合几种模态的转换,例如图像,相机参数和深度图。 MATRIX3D大规模多模式训练的关键在于结合面具学习策略。即使有部分完整的数据,例如图像置态和图像深度对的双模式数据也可以实现全模式模型训练……

扩散模型的投射组成机制

Mechanisms of Projective Composition of Diffusion Models

我们研究了扩散模型中组成的理论基础,特别着眼于分布外的外推和长度将军。先前的工作表明,通过线性得分组合组成分布可以实现有希望的结果,包括在某些情况下(Du等,2023; Liu等,2022)。但是,我们对这些构图如何以及为什么起作用的理论理解仍然不完整。实际上,甚至还不清楚组成的“工作”意味着什么。本文开始解决这些基本差距。我们从…

提高了私人非齿非convex优化的样本复杂性

Improved Sample Complexity for Private Nonsmooth Nonconvex Optimization

我们研究了既不光滑也不平稳的随机目标和经验目标的差异私有(DP)优化算法,并提出了返回戈德斯坦 - 安置点具有样本复杂性界限的方法,这些方法是改善现有工作的样本复杂性。 (α,β)(\ alpha,\ beta)(α,β) - 只要数据集大小…

联邦分析的本地泛私人物

Local Pan-Privacy for Federated Analytics

Pan-Privacy。 (2010年)作为设计私人分析系统的方法,该系统在面对暴露系统内部状态的入侵中保留其隐私属性。在联邦遥测应用程序中,我们研究了当地的泛滥,在该广场上应保留在一再对当地国家的未经通知的侵犯下保留的隐私。我们考虑了监视联合系统中事件计数的问题,在该系统中,即使在该设备上的入侵者中,也应隐藏在本地设备上的事件。我们表明,在合理的约束下,…

无分类器指导是一个预测器 - 校准

Classifier-Free Guidance is a Predictor-Corrector

我们研究了无分类器指导(CFG)的理论基础。 CFG是文本对图像扩散模型的条件采样的主要方法,但与扩散的其他方面不同,它仍然保持在摇摇欲坠的理论基础上。在本文中,我们通过证明CFG与DDPM(Ho等,2020)和DDIM(Song等,2021)的相互作用来反驳共同的误解,并且CFG都不会产生gamma驱动的分布P(x | c)^γp(x)^γp(x)^{1- = {1-γ}。然后,我们通过证明它是一种预测器 - 矫正器方法来阐明CFG的行为(Song等,2020)…

如何验证任何(合理的)分发属性:分布的计算声音参数系统

How to Verify Any (Reasonable) Distribution Property: Computationally Sound Argument Systems for Distributions

随着统计分析对科学,工业和社会的核心越来越重要,因此越来越需要确保其结果的正确性。可以通过复制整个分析来验证近似正确性,但是我们可以在不复制的情况下验证吗?在最新工作的基础上,我们研究了允许概率验证者确定分析结果的证明系统近似正确,同时绘制较少的样本和使用较少的计算资源来复制分析所需的计算资源。我们专注于分发测试问题:验证…

基于LLM的方法用于审查App Store上的摘要

An LLM-Based Approach to Review Summarization on the App Store

评分和评论是探索应用程序商店中应用程序的用户的宝贵资源,提供了有关其他人如何体验应用程序的见解。通过iOS 18.4中的评论摘要,用户可以快速获得其他用户对应用程序的看法的高级概述,同时仍然可以选择介绍个人评论以获取更多详细信息。此功能由一个新颖的基于LLM的新型系统提供动力,该系统会定期汇总用户评论。我们生成评论摘要的目标是确保它们具有包容性,平衡并准确地反映用户的声音。到…

ICLR 2025

Apple Machine Learning Research at ICLR 2025

苹果研究人员正在通过基础研究来推进机器学习(ML)和AI,从而提高了世界对这项技术的理解,并有助于重新定义它的可能性。为了支持更广泛的研究社区并帮助加速该领域的进步,我们通过出版物,开源资源和会议的参与分享我们的大部分研究。本周,第十三国际学习代表会议(ICLR)将在新加坡举行。 ICLR汇集了深度学习和代表性应用的主要专家……

fastvlm:视觉语言模型的有效愿景

FastVLM: Efficient Vision encoding for Vision Language Models

缩放输入图像分辨率对于增强视觉语言模型(VLM)的性能至关重要,尤其是在文本丰富的图像理解任务中。但是,由于大量令牌和高度编码延迟,流行的视觉编码器(例如VIT)在高分辨率下效率低下。在不同的操作分辨率下,可以沿两个轴优化VLM的视觉编码器:减少编码延迟并最小化传递给LLM的视觉令牌的数量,从而降低整体延迟。基于对互动的综合效率分析…

ACM人类计算机交互会(CHI)2025

ACM Human-Computer Interaction Conference (CHI) 2025

Apple将于4月26日至5月1日在日本横滨与日本横滨举行的ACM人类计费互动(CHI)年度会议上展示新的研究。我们很自豪地再次赞助了会议,该会议汇集了专注于交互式技术的科学和工业研究社区。以下是Apple在Chi 2025的参与的概述。在展览时间期间,Apple Booth(304&305)的Schedulestop(304&305)。 GMT +9(日本时间)中列出的所有时间:4月29日,星期二:10:00-17:00 wednesday,4月30日:10:00-…

与Gromov-Monge Gap

Disentangled Representational Learning with the Gromov-Monge Gap

从未标记的数据中学习分离的表示形式是机器学习的基本挑战。解决它可能会解散其他问题,例如概括,可解释性或公平性。尽管理论上要解决的问题非常具有挑战性,但在实践中通常通过先前的匹配实现了分解。此外,最近的作品表明,可以通过学习保留数据的几何特征(例如距离或点之间的角度)来利用几何考虑来增强先前的匹配方法。但是,匹配先前…

飞镖:可扩展文本到图像生成的自动回归变压器

DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation

扩散模型已成为视觉产生的主要方法。他们是通过deno培训的马尔可夫工艺,该过程逐渐为输入增加了噪音。我们认为,马尔可夫的财产限制了该模型充分利用生成轨迹的能力,从而导致训练和推理期间效率低下。在本文中,我们提出了DART,这是一种基于变压器的模型,该模型统一自回归(AR)和非马克维亚框架内的扩散。飞镖迭代地将图像贴片在空间和光谱上使用与标准相同的架构相同的AR模型

天然多模型模型的缩放定律

Scaling Laws for Native Multimodal Models

建立可以通过多模式信号有效地感知世界的通用模型一直是一个长期目标。当前的方法涉及分别整合预训练的组件,例如将视觉编码器连接到LLMS和持续的多模式训练。尽管这种方法表现出显着的样本效率,但仍然是一个悬而未决的问题,这是否本质上是优越的。在这项工作中,我们重新审视了本地多模型(NMM)的建筑设计 - 从头开始​​训练的人 - 并进行广泛的……

国际学习表征会议(ICLR)2025

International Conference on Learning Representations (ICLR) 2025

苹果将赞助国际学习代表会议(ICLR),该会议将于2025年4月24日至28日在新加坡举行。 ICLR汇集了致力于进步深度学习的专业人员。