Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

RACTENTION:朝向局部全球注意模型的最小滑动窗口尺寸

RATTENTION: Towards the Minimal Sliding Window Size in Local-Global Attention Models

局部全球注意模型最近已成为标准变压器的引人注目的替代方案,有望提高训练和推理效率。但是,窗口尺寸的关键选择给出了帕累托的权衡:较大的窗户保持性能类似于全部关注,但在短上下文的情况下提供了最小的效率提高,而较小的窗户可以导致性能退化。当前的模型(例如Gemma2和Mistral)采用了保守的窗户尺寸(例如,在8192预算后的长度中4096)来保持性能。这项工作调查了……

atoken:视觉的统一令牌

AToken: A Unified Tokenizer for Vision

我们介绍了Atoken,这是第一个跨图像,视频和3D资产的高保真重建和语义理解的统一视觉令牌。与专门研究单个模式的重建或理解的现有图形不同,atoken将这些不同的视觉输入编码为共享的4D潜在空间,在单个框架中统一任务和模态。具体而言,我们引入了带有4D旋转位置嵌入的纯变压器体系结构,以处理任意分辨率和时间持续时间的视觉输入。确保稳定…

可识别的多视因果发现而没有非高斯性

Identifiable Multi-View Causal Discovery Without Non-Gaussianity

我们在多视图结构方程模型(SEM)的框架中提出了一种新型的线性因果发现方法。我们提出的模型通过假设差异多样性而不是视图,从而使非高斯干扰的众所周知的假设更加广泛地适用。我们证明了模型的所有参数的可识别性,而没有对SEM的结构进行任何进一步的假设。我们进一步提出了一种基于多视图独立组件分析(ICA)的最新进展的估计算法。提出的方法是…

Epicache:长时间对话问题的情节KV缓存管理

EpiCache: Episodic KV Cache Management for Long Conversational Question Answering

大型语言模型(LLM)的最新进展具有扩展的上下文长度,使助手能够维持长长的历史,以获得连贯的个性化回应。但是,这种能力取决于键值(KV)缓存,其内存随对话长度线性增长,并在严格的资源约束下迅速占主导地位。 KV缓存压缩是减少此开销的积极研究线,该研究旨在限制缓存大小的同时保持准确性。然而,现有方法面临两个主要局限性:(i)在全文预填充后驱逐条目会导致无限的峰值内存,以及(ii)…

苹果自然语言和交互式系统的研讨会2025

Apple Workshop on Natural Language and Interactive Systems 2025

自然语言处理(NLP)仍然是AI中最快发展的领域之一,因为新的研究继续迅速推进大型语言模型(LLMS),语音识别和发电的系统,语言代理等。这项技术对于当今的许多AI体验至关重要,包括Apple Intelligence和Siri,NLP的基础研究将是对未来AI的基础。Apple最近主持了关于自然语言和互动系统的研讨会,将Apple和学术研究社区的成员聚集在两天的活动中,重点是最近……

通过无法区分的镜头进行校准

Calibration through the Lens of Indistinguishability

校准是预测文献中的经典概念,旨在解决以下问题:如何解释预测的概率?在我们只能观察(离散)结果的世界中,我们应该如何评估一个预测因子,该预测因素假设(连续)概率超过了可能的结果?鉴于机器学习中概率预测的无处不在,对校准的研究激增了最近的兴趣。这项调查描述了有关如何定义和衡量校准误差的基础问题的最新工作,这些措施对…

mm空间:在多模式LLMS中探索3D空间理解

MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs

多模式的大语言模型(MLLM)在2D视觉理解中出色,但在推理3D空间的能力方面仍然有限。在这项工作中,我们利用带有开放设定注释的大规模高质量3D场景数据来介绍1)新型监督的微调数据集和2)一个新的评估基准,重点是室内场景。我们将任何VQA(CA-VQA)数据的内容涵盖了各种空间任务,包括空间关系预测,度量大小和距离估计以及3D接地。我们表明,CA-VQA使我们能够训练MM-Spatial,这是一个强大的通才MLLM,也……

第一个归一化不完整力矩的替代统计推断

Alternative Statistical Inference for the First Normalized Incomplete Moment

本文重新检查了第一个规范化的不完整时刻,这是对经济和社会科学中广泛应用的不平等现象的衡量标准。尽管措施本身很普遍,但现有的统计推断似乎落后于现代分析的需求。为了填补这一空白,我们提出了一种替代解决方案,该解决方案具有直观的,计算上的高效,数学上等效于“标准”情况的现有解决方案,并且易于适应“非标准”。证明了所提出的方法的理论和实际优势……

slowfast-llava-1.5:一个代币高效的视频大型语言模型,用于长期视频理解

SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding

我们介绍了一个慢速fast-llava-1.5(缩写为sf-llava-1.5),这是一个视频大型语言模型(LLMS)的家族,提供具有令牌有效的解决方案,以进行长形式的视频理解。我们将两流的慢速机制纳入流线型训练管道中,并在仅策划的仅公开数据集的数据混合物中执行联合视频图像培训。我们的主要重点是高效的模型量表(1B和3B),表明即使是相对较小的视频LLM也可以在视频理解上实现最新的性能,满足对…

清单比对齐语言模型的奖励模型更好

Checklists Are Better Than Reward Models For Aligning Language Models

语言模型必须进行调整以了解和遵循用户说明。强化学习被广泛用于促进这一点 - 通常使用诸如“帮助”和“有害性”之类的固定标准。在我们的工作中,我们建议使用灵活的,特定于指导的标准作为扩大强化学习在引起跟随教学方面产生的影响的手段。我们建议“从清单反馈中学习”(RLCF)。从说明中,我们提取清单并评估响应对每个项目的满足程度 - 使用AI法官和专业人士…

“超级重量:”即使是单个参数如何确定大语言模型的行为

The "Super Weight:" How Even a Single Parameter can Determine a Large Language Model's Behavior

苹果研究人员的最新论文“大语言模型中的超级重量”表明,LLMS中的一个极为小部分(在某些情况下,单个参数)可能对LLM的整体功能产生不成比例的影响(请参见图1)。这项工作突出了这些“超级权重”及其相应的“超级激活”的关键作用,为LLM体系结构提供了新的见解,并提供了有效模型压缩的途径。本文提供了完整的技术细节和实验结果;在这篇文章中,我们提供了密钥的高级概述…

重新思考非阴性矩阵分解与隐式神经表示

Rethinking Non-Negative Matrix Factorization with Implicit Neural Representations

在IEEE研讨会上接受了有关信号处理到音频和声学的应用(WASPAA)2025non阴性矩阵分解(NMF)是一种强大的技术,可用于分析定期采样的数据,即可以存储在矩阵中的数据。对于音频,这导致了使用时间频率(TF)表示等短期傅立叶变换等频率(TF)表示。但是,由于这些表示,因此不可能将这些应用扩展到不规则间隔的TF表示,例如常数Q变换,小波或正弦分析模型,因为这些表示……

使用Coreference解决方案中的置信度差异来研究大语言模型中的交叉偏见

Investigating Intersectional Bias in Large Language Models using Confidence Disparities in Coreference Resolution

大型语言模型(LLMS)取得了令人印象深刻的表现,从而使其广泛采用在资源受限的背景下的决策支持工具,例如招聘和入学。但是,科学共识是AI系统可以反映和加剧社会偏见,在批判性社会环境中使用时对基于身份的伤害的担忧引起了人们的关注。先前的工作通过评估不同语言推理任务中的人口差异来评估LLM的偏见奠定了坚实的基础。在这项工作中,我们扩展了单轴公平评估以检查交叉……

音调重音检测改善了预验证的自动语音识别

Pitch Accent Detection Improves Pretrained Automatic Speech Recognition

我们通过引入关节ASR和音高强调检测模型来提高使用半监督语音表示的自动语音识别(ASR)系统的性能。我们模型的音高重音检测部分可以在最新的任务上取得显着改善,从而使F1得分的差距缩小了41%。此外,在有限的资源微调下,联合培训中的ASR性能在Librispeech上降低了28.3%。通过这些结果,我们表明了延长预估计的重要性…

uicoder:通过自动反馈生成用户界面代码的大型语言模型

UICoder: Finetuning Large Language Models to Generate User Interface Code through Automated Feedback

大型语言模型(LLMS)难以始终生成编译并产生视觉相关设计的UI代码。现有的改善发电的方法取决于昂贵的人类反馈或提炼专有模型。在本文中,我们探讨了自动反馈(编译器和多模式模型)的使用来指导LLMS生成高质量的UI代码。我们的方法从现有的LLM开始,并通过使用原始模型自我生成大型合成数据集来迭代地产生改进的模型,并应用自动化工具来积极过滤,得分和删除…

神经机器翻译的最佳语料库意识培训

Optimal Corpus Aware Training for Neural Machine Translation

语料库意识培训(CAT)在培训期间通过将语料库信息注入每个培训示例,以利用有价值的语料库元数据,并在文献中被发现有效,通常称为“标记”方法。经过猫训练的模型直接从数据直接学习了Corpora之间的质量,领域和细微差别,并且可以轻松切换到不同的推理行为。为了获得最佳的评估,CAT模型在训练开始之前预定了一组高质量的数据,这可能是错误的效率和效率低下的。在这项工作中,我们提出了最佳语料库意识培训…

启发长篇小说语言模型的文本检索和推理

Eliciting In-context Retrieval and Reasoning for Long-Context Language Models

长篇文化语言模型(LCLM)的最新进展有可能通过简化管道来转换检索功能的生成(RAG)。借助其扩展的上下文窗口,LCLM可以处理整个知识库并直接处理检索和推理。此功能定义为在文本检索和推理(ICR2)。但是,像Loft这样的现有基准通常高估了LCLM的性能,因为它们缺乏足够挑战性的环境。为了解决这个问题,我们介绍了ICR2,这是一种旨在更现实的LCLMS评估和培训的基准。这个…

Interspeech 2025

Interspeech 2025

苹果将在荷兰鹿特丹在8月17日至21日亲自举行的年度言论会议上展示新作品。主说话的重点是围绕口头语言处理的科学和技术的研究。BELOW是Interspeech 2025的苹果赞助研讨会和活动的时间表。