Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

CVPR 2025

Apple Machine Learning Research at CVPR 2025

苹果研究人员正在通过基础研究来推进AI和ML,并支持更广泛的研究社区并帮助加速该领域的进步,我们通过在会议上的出版和参与分享我们的大部分研究。本周,IEEE/CVF计算机视觉和模式识别会议(CVPR)将在田纳西州的纳什维尔举行。苹果很荣幸能再次参加社区的这一重要活动,并成为行业赞助商。在主要会议和相关的研讨会上,苹果研究人员将在许多…

更新苹果的设备和服务器基础语言模型

Updates to Apple's On-Device and Server Foundation Language Models

凭借苹果智能,我们将强大的生成AI融入到应用程序中,并在保护其隐私的同时每天都会使用人们使用。在2025年全球开发人员会议上,我们引入了新一代语言基础模型,专门为增强我们最新软件发行的Apple Intelligence功能而开发。我们还介绍了新的基础模型框架,该框架使应用程序开发人员可以直接访问Apple Intelligence核心的设备基础语言模型。我们精心制作了这些生成模型,为…

改善视力语言模型的思想链推理

Improve Vision Language Model Chain-of-thought Reasoning

视觉语言模型(VLMS)中的思考链(COT)推理对于改善无法释放性和可信赖性至关重要。但是,当前的培训食谱通常依赖于以统一理由为主导的ondatasets。在这项工作中,我们表明对简短答案的VLM进行训练会导致较差的推理任务,要求详细解释。为了解决这一局限性,我们提出了一个两阶段的培训后策略,该术时扩展了简短的答案数据以增强COT推理的用法。首先,用……

代理-FDA:基于代理的特征分配对齐,用于微调视觉基础模型,而无需忘记

Proxy-FDA: Proxy-Based Feature Distribution Alignment for Fine-Tuning Vision Foundation Models Without Forgetting

Vision Foundation基础模型在大规模数据上进行了预训练,编码了现实世界概念的丰富表示形式,可以通过微调将其适用于下游任务。但是,一项任务的微调基础模型通常会导致概念忘记其他任务的问题。最新的良好微调方法旨在减轻忘记先验知识而不影响微调的性能。通常通过匹配原始和微调的模型权重或特征对来保留知识。但是,这样的点匹配可能太强了,而没有明确的意识……

超越文本压缩:评估跨量表的引物

Beyond Text Compression: Evaluating Tokenizers Across Scales

令牌设计师的设计显着影响语言模型性能,但是评估令牌质量仍然具有挑战性。尽管文本压缩已成为一种常见的内在度量,但最近的工作质疑其作为质量指标的可靠性。 We investigate whether evaluating tokenizers on smaller models (350M parameters) reliably predicts their impact at larger scales (2.7B parameters).Through experiments with established tokenizers from widely-adopted language m

思维的幻想:通过问题复杂性的角度了解推理模型的优势和局限性

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

最近几代的边境语言模型引入了大型推理模型(LRMS),该模型在提供答案之前生成详细的思维过程。尽管这些模型可以提高推理基准的性能,但它们的基本功能,尺度属性和局限性仍然不足以理解。当前的评估主要是关于已建立的数学和编码基准的FO-CUS,强调了最终答案的准确性。但是,这种评估范式通常会遭受数据污染,并且不能为推理迹象提供见解。

语音质量尺寸为非典型语音和影响

Voice Quality Dimensions as Interpretable Primitives for Speaking Style for Atypical Speech and Affect

知觉语音质量维度描述了非典型语音和其他语音调制的关键特征。在这里,我们开发和评估了七个语音和语音维​​度的语音质量模型(可理解性,不精确的辅音,苛刻的声音,自然,单片,莫诺维奇和呼吸)。对公共语音可访问性(SAP)项目数据集进行了培训,其中有434位扬声器的11,184个样本,使用冷冻预培训模型的嵌入作为功能。我们发现,我们的探针在语音引起的探针既有强大的表现又有强烈的概括……

IEEE/CVF计算机视觉和模式识别会议(CVPR)2025

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2025

苹果公司将赞助IEEE/CVF计算机视觉和模式识别会议(CVPR),该会议将于2025年6月11日至6月15日在田纳西州的纳什维尔举行。 CVPR是一年一度的计算机愿景活动,包括主会议,几个共同确定的研讨会和短期课程。以下是我们赞助的研讨会和活动的时间表。

分析语言相似性对跨语言转移的影响:任务和输入表示

Analyzing the Effect of Linguistic Similarity on Cross-Lingual Transfer: Tasks and Input Representations Matter

跨语性转移是一种在低资源环境中增加NLP任务的培训数据量的流行方法。但是,确定包含哪些跨语性数据的最佳策略尚不清楚。先前的研究通常集中于一些语言家庭或一项任务的一小部分语言。这些发现如何扩展到多种多样的语言和任务仍然是一个悬而未决的问题。在这项工作中,我们通过分析来自各种语言家庭的263种语言的跨语化转移来为这个问题做出了贡献。此外,我们包括三个流行的NLP任务…

蒸馏缩放法律

Distillation Scaling Laws

我们提出了一项蒸馏缩放法,该法律根据计算预算及其在学生和教师之间的分配来估算蒸馏模型性能。我们的发现通过为教师和学生启用计算最佳分配,以最大程度地提高学生表现,从而减轻与大规模蒸馏有关的风险。我们为两个关键情况提供了最佳的蒸馏食谱:当老师已经存在以及老师需要培训时。在涉及许多学生或现有教师的设置中,蒸馏的表现优于监督到计算水平的学习……

提示耳语以改进逐字记录和端到端的错误检测

Prompting Whisper for Improved Verbatim Transcription and End-to-end Miscue Detection

*相同的贡献识别错误(即,在大声朗读时犯的错误)通常是通过将自动语音识别(ASR)转录与目标阅读文本进行比较而大声接触的。但是,当ASR不准确转录逐字化的语音时,事后方法的性能很差。为了改善当前阅读错误注释的方法,我们提出了一种新颖的端到端体系结构,该结构通过提示结合了目标阅读文本,并接受了改进的逐字记录和直接的错误检测。我们的贡献包括:首先证明…

带有显式3D建模的世界一致的视频扩散

World-Consistent Video Diffusion With Explicit 3D Modeling

作为主导视觉内容生成的扩散模型,已经努力使这些模型适应多视图图像生成以创建3D内容。传统上,这些方法通过仅产生RGB框架来隐式学习3D一致性,这可以导致培训中的工件和效率低下。相比之下,我们建议在RGB框架并肩生成归一化坐标空间(NCS)框架。 NCS框架捕获每个像素的全局坐标,为3D一致性提供了强大的像素对应关系和明确的监督。另外,通过共同估计RGB和NCS框架…

speakstream:带有交织数据的流式传输到语音

SpeakStream: Streaming Text-to-Speech with Interleaved Data

With the increasing integration of speech front-ends and large language models (LLM),there is a need to explore architectures that integrate these modalities.While end-to-end models have been explored extensively, cascaded models that stream outputs from LLMs to TTS seem to be oddly under-explored,

通过加强学习的大语模型的交错推理

Interleaved Reasoning for Large Language Models via Reinforcement Learning

长期思考链(COT)显着增强了大型语言模型(LLM)的推理能力。但是,广泛的推理痕迹导致效率低下和增加时间(TTFT)的增加。我们提出了一种新颖的培训范式,该训练范式使用加固学习(RL)指导推理LLMS以交织和回答多跳的问题。我们观察到,模型本质上具有执行交织的推理的能力,可以通过RL进一步增强。我们引入了一个简单而有效的基于规则的奖励,以激励正确的中间步骤……

基金会模型隐藏表示从听诊估算的心率估计

Foundation Model Hidden Representations for Heart Rate Estimation from Auscultation

听诊,尤其是心脏声音,是一种提供必不可少的生命体征信息的无侵蚀性技术。非常肯定地,已经提出了自我监督的声学代表模型(FMS),以提供基于洞察力的奥斯科群体基于Acouttics的生命体征。但是,已经探索了这些预训练的FM表示中的听诊的程度。在这项工作中,使用公开可用的Phonocardioram(PCG)数据集和心率(HR)估计模型,我们对六个声学代表FMS进行了层次调查:Hubert:hubert,wav2vec2…

剪辑:一种简单有效的Experts剪辑培训配方,稀疏升级

CLIP-UP: A Simple and Efficient Mixture-of-Experts CLIP Training Recipe with Sparse Upcycling

混合物(MOE)模型对于在控制推理成本的同时,对于缩放模型的容量至关重要。在将MOE集成到诸如夹子之类的多模型中,可以提高性能,但众所周知,培训这些模型具有挑战性且昂贵。我们提出了剪辑剪辑(剪辑),这是一种有效的替代培训策略,可将预先训练的密集夹模型转换为稀疏的MoE体系结构。通过对各种环境和辅助损失进行广泛的实验,我们证明了剪辑可显着降低训练的复杂性和成本。值得注意的是,我们稀疏的剪辑B/16…

spd:高语言模型的有效张量并行性的同步点下降

SPD: Sync-Point Drop for Efficient Tensor Parallelism of Large Language Models

随着Largelanguage模型(LLM)规模的快速扩展,使跨多个计算单元的有效分布推理变得越来越重要。但是,来自流行的分布式促进技术(例如张量并行主义)的沟通开销构成了实现可伸缩性和低潜伏期的重大挑战。因此,我们引入了一种新颖的技术,同步点降(SPD),以通过选择性地降低注意力输出的同步性来减少张量并行性中的通信开销。详细说明,我们首先提出了一个……

是什么使良好的立体图像?

What Makes for a Good Stereoscopic Image?

本文在CV4Metaverse研讨会上接受了CVPR2025。在虚拟现实(VR)头戴式耳机中的快速进步,有效地测量了立体体验(SQOE)对于提供沉浸式和舒适的3D体验至关重要。但是,大多数现有的立体声指标都集中在观看体验的孤立方面,例如视觉不适或图像质量,并且传统上面临着数据限制。为了解决这些差距,我们提出范围(立体内容偏好评估),这是一个由真实和合成的立体图像组成的新数据集……