An LLM-Based Approach to Review Summarization on the App Store
评分和评论是探索应用程序商店中应用程序的用户的宝贵资源,提供了有关其他人如何体验应用程序的见解。通过iOS 18.4中的评论摘要,用户可以快速获得其他用户对应用程序的看法的高级概述,同时仍然可以选择介绍个人评论以获取更多详细信息。此功能由一个新颖的基于LLM的新型系统提供动力,该系统会定期汇总用户评论。我们生成评论摘要的目标是确保它们具有包容性,平衡并准确地反映用户的声音。到…
随着统计分析对科学,工业和社会的核心越来越重要,因此越来越需要确保其结果的正确性。可以通过复制整个分析来验证近似正确性,但是我们可以在不复制的情况下验证吗?在最新工作的基础上,我们研究了允许概率验证者确定分析结果的证明系统近似正确,同时绘制较少的样本和使用较少的计算资源来复制分析所需的计算资源。我们专注于分发测试问题:验证…
Apple Machine Learning Research at ICLR 2025
苹果研究人员正在通过基础研究来推进机器学习(ML)和AI,从而提高了世界对这项技术的理解,并有助于重新定义它的可能性。为了支持更广泛的研究社区并帮助加速该领域的进步,我们通过出版物,开源资源和会议的参与分享我们的大部分研究。本周,第十三国际学习代表会议(ICLR)将在新加坡举行。 ICLR汇集了深度学习和代表性应用的主要专家……
FastVLM: Efficient Vision encoding for Vision Language Models
缩放输入图像分辨率对于增强视觉语言模型(VLM)的性能至关重要,尤其是在文本丰富的图像理解任务中。但是,由于大量令牌和高度编码延迟,流行的视觉编码器(例如VIT)在高分辨率下效率低下。在不同的操作分辨率下,可以沿两个轴优化VLM的视觉编码器:减少编码延迟并最小化传递给LLM的视觉令牌的数量,从而降低整体延迟。基于对互动的综合效率分析…
ACM Human-Computer Interaction Conference (CHI) 2025
Apple将于4月26日至5月1日在日本横滨与日本横滨举行的ACM人类计费互动(CHI)年度会议上展示新的研究。我们很自豪地再次赞助了会议,该会议汇集了专注于交互式技术的科学和工业研究社区。以下是Apple在Chi 2025的参与的概述。在展览时间期间,Apple Booth(304&305)的Schedulestop(304&305)。 GMT +9(日本时间)中列出的所有时间:4月29日,星期二:10:00-17:00 wednesday,4月30日:10:00-…
Disentangled Representational Learning with the Gromov-Monge Gap
从未标记的数据中学习分离的表示形式是机器学习的基本挑战。解决它可能会解散其他问题,例如概括,可解释性或公平性。尽管理论上要解决的问题非常具有挑战性,但在实践中通常通过先前的匹配实现了分解。此外,最近的作品表明,可以通过学习保留数据的几何特征(例如距离或点之间的角度)来利用几何考虑来增强先前的匹配方法。但是,匹配先前…
Scaling Diffusion Language Models via Adaptation from Autoregressive Models
扩散语言模型(DLM)已成为文本生成建模的有希望的新范式,有可能解决自回归(AR)模型的局限性。但是,与AR同行相比,当前的DLM的规模较小,并且缺乏对语言建模基准测试的公平比较。此外,从头开始的训练扩散模型仍然具有挑战性。鉴于开源AR语言模型的流行率,我们建议适应这些模型来构建文本扩散模型。我们演示了AR和扩散建模目标之间的联系以及…
Scaling Laws for Native Multimodal Models
建立可以通过多模式信号有效地感知世界的通用模型一直是一个长期目标。当前的方法涉及分别整合预训练的组件,例如将视觉编码器连接到LLMS和持续的多模式训练。尽管这种方法表现出显着的样本效率,但仍然是一个悬而未决的问题,这是否本质上是优越的。在这项工作中,我们重新审视了本地多模型(NMM)的建筑设计 - 从头开始训练的人 - 并进行广泛的……
International Conference on Learning Representations (ICLR) 2025
苹果将赞助国际学习代表会议(ICLR),该会议将于2025年4月24日至28日在新加坡举行。 ICLR汇集了致力于进步深度学习的专业人员。
Step-by-Step Diffusion: An Elementary Tutorial
我们提供了一门关于扩散模型数学和机器学习流程匹配的可访问的第一门课程。我们的目标是尽可能简单地教授扩散,以最少的数学和机器学习先决条件,但足够的技术细节来理解其正确性。与大多数有关该主题的教程不同,我们既不采用变异自动编码器(VAE),也不采用随机微分方程(SDE)方法。实际上,对于核心思想,我们将不需要任何SDE,基于证据的降低器(ELBOS),Langevin Dynamics,甚至分数的概念。读者只需要…
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation
扩散模型已成为视觉产生的主要方法。他们是通过deno培训的马尔可夫工艺,该过程逐渐为输入增加了噪音。我们认为,马尔可夫的财产限制了该模型充分利用生成轨迹的能力,从而导致训练和推理期间效率低下。在本文中,我们提出了DART,这是一种基于变压器的模型,该模型统一自回归(AR)和非马克维亚框架内的扩散。飞镖迭代地将图像贴片在空间和光谱上使用与标准相同的架构相同的AR模型
EC-DIT: Scaling Diffusion Transformers with Adaptive Expert-Choice Routing
扩散变压器已被广泛用于文本对图像合成。在将这些模型扩展到数十亿个参数显示出希望的同时,超越当前尺寸的缩放的有效性仍然没有充满挑战和具有挑战性。通过明确利用图像世代的计算异质性,我们开发了一个新的Experts(MOE)模型(MOE)模型(EC-DIT),用于具有专家选择路由的扩散变压器。 EC-DIT学会了适应性地优化分配的计算以了解输入文本并生成相应的图像补丁,从而实现异质性…
CoMotion: Concurrent Multi-Person 3D Motion
我们介绍了一种从单眼相机流中检测和跟踪多个人的详细3D姿势的方法。我们的系统在充满困难的姿势和遮挡的拥挤场景中保持了时间连贯的预测。我们的模型既可以执行强大的人均检测,又可以进行学习的姿势更新,以从框架到框架跟踪人们。 Poses并没有直接从新的输入图像中更新,而不是跨时间匹配检测,该图像可以通过遮挡在线跟踪。我们在许多图像和视频数据集上培训,以利用伪标记的注释来产生…
TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization
直接偏好优化(DPO)由于其简单性和有效性而被广泛采用大型语言模型(LLMS)的偏好对齐。但是,DPO被推导为匪徒问题,其中整个响应被视为单臂,忽略了令牌之间的重要性差异,这可能会影响优化效率,并且使得难以实现最佳结果。在这项工作中,我们建议DPO的最佳数据在获胜和失去响应方面的每个代币都具有相同的预期奖励,因为令牌重要性没有差异。但是,由于…
Understanding Aggregate Trends for Apple Intelligence Using Differential Privacy
在苹果公司,我们认为隐私是人类的基本权利。我们相信,在保护其隐私的同时为用户提供了丰富的经验。多年来,我们一直使用诸如差异隐私之类的技术作为我们选择装置分析计划的一部分。这使我们可以深入了解产品的使用方式,因此我们可以通过防止Apple从这些用户中查看个人级别数据来改进它们,同时保护用户隐私。在Apple Intelligence中也存在同样的需求,同样需要了解使用使用,同时保护隐私。我们的原则之一是苹果没有使用我们的用户……
FocalLens: Instruction Tuning Enables Zero-Shot Conditional Image Representations
本文在ICLR 2025的野外基础模型的研讨会上接受了本文的理解本质上是上下文 - 我们在图像中关注的内容取决于手头的任务。例如,考虑到一个人拿着一束鲜花的人的图像,我们可能会根据感兴趣的背景而专注于他们的衣服或花的类型。但是,大多数现有的图像编码范式代表图像作为固定的通用特征向量,可忽视优先考虑不同下游用例的不同视觉信息的潜在需求。在…
Language Models Know More Than They Show: Exploring Hallucinations From the Model's Viewpoint
大型语言模型(LLM)通常会产生错误,包括事实上的不准确性,偏见和推理失败,共同称为“幻觉”。最近的研究表明,LLMS的内部状态编码有关其产出真实性的信息,并且可以利用此信息来检测错误。在这项工作中,我们表明LLMS的内部表示与以前所认识的更多有关真实性的信息要多。我们首先发现真实信息集中在特定的令牌上,并利用这一点……
MM-Ego: Towards Building Egocentric Multimodal LLMs
这项研究旨在全面探索建立以自我为中心视频理解的多模式基础模型。为了实现这一目标,我们在三个方面工作。首先,由于缺乏质量为中心的视频理解的质量检查数据,因此我们将自动生成7m高质量的质量质量样本,用于基于人类通知数据的ego4d的自我中心视频。这是最大的中心QA数据集之一。其次,我们通过629个视频和7,026个问题来贡献一个具有挑战性的QA基准,以评估模型的识别能力和…