Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

清单比对齐语言模型的奖励模型更好

Checklists Are Better Than Reward Models For Aligning Language Models

语言模型必须进行调整以了解和遵循用户说明。强化学习被广泛用于促进这一点 - 通常使用诸如“帮助”和“有害性”之类的固定标准。在我们的工作中,我们建议使用灵活的,特定于指导的标准作为扩大强化学习在引起跟随教学方面产生的影响的手段。我们建议“从清单反馈中学习”(RLCF)。从说明中,我们提取清单并评估响应对每个项目的满足程度 - 使用AI法官和专业人士…

slowfast-llava-1.5:一个代币高效的视频大型语言模型,用于长期视频理解

SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding

我们介绍了一个慢速fast-llava-1.5(缩写为sf-llava-1.5),这是一个视频大型语言模型(LLMS)的家族,提供具有令牌有效的解决方案,以进行长形式的视频理解。我们将两流的慢速机制纳入流线型训练管道中,并在仅策划的仅公开数据集的数据混合物中执行联合视频图像培训。我们的主要重点是高效的模型量表(1B和3B),表明即使是相对较小的视频LLM也可以在视频理解上实现最新的性能,满足对…

“超级重量:”即使是单个参数如何确定大语言模型的行为

The "Super Weight:" How Even a Single Parameter can Determine a Large Language Model's Behavior

苹果研究人员的最新论文“大语言模型中的超级重量”表明,LLMS中的一个极为小部分(在某些情况下,单个参数)可能对LLM的整体功能产生不成比例的影响(请参见图1)。这项工作突出了这些“超级权重”及其相应的“超级激活”的关键作用,为LLM体系结构提供了新的见解,并提供了有效模型压缩的途径。本文提供了完整的技术细节和实验结果;在这篇文章中,我们提供了密钥的高级概述…

None

Rethinking Non-Negative Matrix Factorization with Implicit Neural Representations

style="text-indent: 2em; "This paper was accepted at the IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) 2025Non-negative Matrix Factorization (NMF) is a powerful technique for analyzing regularly-sampled data, i.e., data that can be stored in a matrix. For audio, this has led to numerous a

使用Coreference解决方案中的置信度差异来研究大语言模型中的交叉偏见

Investigating Intersectional Bias in Large Language Models using Confidence Disparities in Coreference Resolution

大型语言模型(LLMS)取得了令人印象深刻的表现,从而使其广泛采用在资源受限的背景下的决策支持工具,例如招聘和入学。但是,科学共识是AI系统可以反映和加剧社会偏见,在批判性社会环境中使用时对基于身份的伤害的担忧引起了人们的关注。先前的工作通过评估不同语言推理任务中的人口差异来评估LLM的偏见奠定了坚实的基础。在这项工作中,我们扩展了单轴公平评估以检查交叉……

音调重音检测改善了预验证的自动语音识别

Pitch Accent Detection Improves Pretrained Automatic Speech Recognition

我们通过引入关节ASR和音高强调检测模型来提高使用半监督语音表示的自动语音识别(ASR)系统的性能。我们模型的音高重音检测部分可以在最新的任务上取得显着改善,从而使F1得分的差距缩小了41%。此外,在有限的资源微调下,联合培训中的ASR性能在Librispeech上降低了28.3%。通过这些结果,我们表明了延长预估计的重要性…

uicoder:通过自动反馈生成用户界面代码的大型语言模型

UICoder: Finetuning Large Language Models to Generate User Interface Code through Automated Feedback

大型语言模型(LLMS)难以始终生成编译并产生视觉相关设计的UI代码。现有的改善发电的方法取决于昂贵的人类反馈或提炼专有模型。在本文中,我们探讨了自动反馈(编译器和多模式模型)的使用来指导LLMS生成高质量的UI代码。我们的方法从现有的LLM开始,并通过使用原始模型自我生成大型合成数据集来迭代地产生改进的模型,并应用自动化工具来积极过滤,得分和删除…

神经机器翻译的最佳语料库意识培训

Optimal Corpus Aware Training for Neural Machine Translation

语料库意识培训(CAT)在培训期间通过将语料库信息注入每个培训示例,以利用有价值的语料库元数据,并在文献中被发现有效,通常称为“标记”方法。经过猫训练的模型直接从数据直接学习了Corpora之间的质量,领域和细微差别,并且可以轻松切换到不同的推理行为。为了获得最佳的评估,CAT模型在训练开始之前预定了一组高质量的数据,这可能是错误的效率和效率低下的。在这项工作中,我们提出了最佳语料库意识培训…

苹果保护机器学习的苹果研讨会2025

Apple Workshop on Privacy-Preserving Machine Learning 2025

苹果认为隐私是人类的基本权利。随着人工智能体验变得越来越个性化并成为人们日常生活的一部分,重要的是,新颖的隐私技术是通过推进AI能力并行创建的。苹果的基础研究一直在使用机器学习的差异性隐私方面推动了最先进的技术,而今年早些时候,我们在今年早些时候就开展了有关Promacy Preseracy-PReservic-PPML的工作室(PPML)。这项为期两天的混合活动将苹果和更广泛的研究社区的成员汇集在一起,讨论了……

Interspeech 2025

Interspeech 2025

苹果将在荷兰鹿特丹在8月17日至21日亲自举行的年度言论会议上展示新作品。主说话的重点是围绕口头语言处理的科学和技术的研究。BELOW是Interspeech 2025的苹果赞助研讨会和活动的时间表。

启发长篇小说语言模型的文本检索和推理

Eliciting In-context Retrieval and Reasoning for Long-Context Language Models

长篇文化语言模型(LCLM)的最新进展有可能通过简化管道来转换检索功能的生成(RAG)。借助其扩展的上下文窗口,LCLM可以处理整个知识库并直接处理检索和推理。此功能定义为在文本检索和推理(ICR2)。但是,像Loft这样的现有基准通常高估了LCLM的性能,因为它们缺乏足够挑战性的环境。为了解决这个问题,我们介绍了ICR2,这是一种旨在更现实的LCLMS评估和培训的基准。这个…

用于设备定向语音检测的自适应知识蒸馏

Adaptive Knowledge Distillation for Device-Directed Speech Detection

设备指导的语音检测(DDSD)是一项二进制分类任务,将用户的查询与语音助手(VA)与背景语音或侧面对话分开。这对于实现自然主义用户体验很重要。为此,我们提出知识蒸馏(KD),以提高DDSD准确性,同时确保有效部署。具体而言,我们引入了一种新型的自适应KD方法,该方法从ASR大型预训练的声学编码器(教师)的一般表示转移知识。我们将特定于任务的适配器应用在(冷冻)教师编码器之上,培训…

您的LLM知道未来:揭示其多token预测潜力

Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential

自回归语言模型受其固有的顺序性质的约束,一次产生一个令牌。该范式限制了推理速度和并行性,尤其是在生成阶段的文本方向和语义相对确定时。在这项工作中,我们提出了一个新颖的框架,该框架利用了关于未来令牌的香草自回归语言模型的固有知识,结合了技术来实现这一潜力并能够同时预测随后多个令牌。我们的方法介绍了几项关键创新:(1)A…

dicehubert:用自我监督的学习目标蒸馏出休伯特

DiceHuBERT: Distilling HuBERT with a Self-Supervised Learning Objective

我们介绍了Dicehubert,这是一种用于压缩Hubert的知识蒸馏框架,Hubert是一种广泛使用的自我监督学习(SSL)的语音基础模型。与依赖于层次和学生模型之间的特征映射的现有蒸馏方法不同,Dicehubert通过直接用学生模型直接替换原始模型来利用Hubert的迭代自我鉴定机制。这种替代品允许使用与培训前使用相同的SSL目标对学生进行培训,从而消除了对其他模块或建筑约束的需求……

InterSpeech 2025语音可访问性项目挑战

The Interspeech 2025 Speech Accessibility Project Challenge

虽然过去十年见证了自动语音识别(ASR)系统的显着进步,但对于言语障碍的人来说,这些系统的性能仍然不足,部分原因是公共培训数据有限。为了弥合这一差距,发起了2025年间言语语音可访问性项目(SAP)挑战,利用了400多个小时的SAP数据收集和转录的500多个患有多样化语音障碍的人。 SAP Challenge托管在evalai并利用远程评估管道上,根据单词错误率评估提交的内容…

Ambisonics使用波形域神经网络

Ambisonics Super-Resolution Using A Waveform-Domain Neural Network

Ambisonics是描述声场的空间音频格式。一阶Ambisonics(FOA)是一种流行的格式,仅包括四个通道。这种有限的频道计数是以空间精度为代价的。理想情况下,人们将能够在没有限制的情况下采用FOA格式的效率。我们设计了一个由数据驱动的空间音频解决方案,该解决方案保留了FOA格式的效率,但可实现超过常规渲染器的质量。利用完全卷积的时间域音频神经网络(Conv-Tasnet),我们创建了一个解决方案,该解决方案采用FOA输入并提供…

stiv:可扩展的文本和图像条件视频生成

STIV: Scalable Text and Image Conditioned Video Generation

视频生成领域取得了显着的进步,但是仍然需要清晰,系统的食谱,可以指导健壮和可扩展模型的开发。在这项工作中,我们介绍了一项全面的研究,该研究系统地探讨了模型体系结构,培训配方和数据策略的相互作用,最终以一种名为STIV的简单且可扩展的文本图像条件的视频生成方法。我们的框架将图像条件通过框架更换整合到扩散变压器(DIT)中,同时通过…

影响模型对非典型语音的普遍性较弱

Affect Models Have Weak Generalizability to Atypical Speech

语音和语音条件可以改变语音的声学特性,这可能会影响副语言模型的表现,以表达对非典型语音的影响。我们评估了公开可用的模型,以识别非典型语音数据集中语音的分类和维度影响,并将结果与典型语音的数据集进行了比较。我们研究了语音非典型性的三个维度:与发音有关的清晰度; Monopitch与韵律和苛刻有关,这与语音质量有关。我们查看(1)…