Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

dicehubert:用自我监督的学习目标蒸馏出休伯特

DiceHuBERT: Distilling HuBERT with a Self-Supervised Learning Objective

我们介绍了Dicehubert,这是一种用于压缩Hubert的知识蒸馏框架,Hubert是一种广泛使用的自我监督学习(SSL)的语音基础模型。与依赖于层次和学生模型之间的特征映射的现有蒸馏方法不同,Dicehubert通过直接用学生模型直接替换原始模型来利用Hubert的迭代自我鉴定机制。这种替代品允许使用与培训前使用相同的SSL目标对学生进行培训,从而消除了对其他模块或建筑约束的需求……

用于设备定向语音检测的自适应知识蒸馏

Adaptive Knowledge Distillation for Device-Directed Speech Detection

设备指导的语音检测(DDSD)是一项二进制分类任务,将用户的查询与语音助手(VA)与背景语音或侧面对话分开。这对于实现自然主义用户体验很重要。为此,我们提出知识蒸馏(KD),以提高DDSD准确性,同时确保有效部署。具体而言,我们引入了一种新型的自适应KD方法,该方法从ASR大型预训练的声学编码器(教师)的一般表示转移知识。我们将特定于任务的适配器应用在(冷冻)教师编码器之上,培训…

InterSpeech 2025语音可访问性项目挑战

The Interspeech 2025 Speech Accessibility Project Challenge

虽然过去十年见证了自动语音识别(ASR)系统的显着进步,但对于言语障碍的人来说,这些系统的性能仍然不足,部分原因是公共培训数据有限。为了弥合这一差距,发起了2025年间言语语音可访问性项目(SAP)挑战,利用了400多个小时的SAP数据收集和转录的500多个患有多样化语音障碍的人。 SAP Challenge托管在evalai并利用远程评估管道上,根据单词错误率评估提交的内容…

Ambisonics使用波形域神经网络

Ambisonics Super-Resolution Using A Waveform-Domain Neural Network

Ambisonics是描述声场的空间音频格式。一阶Ambisonics(FOA)是一种流行的格式,仅包括四个通道。这种有限的频道计数是以空间精度为代价的。理想情况下,人们将能够在没有限制的情况下采用FOA格式的效率。我们设计了一个由数据驱动的空间音频解决方案,该解决方案保留了FOA格式的效率,但可实现超过常规渲染器的质量。利用完全卷积的时间域音频神经网络(Conv-Tasnet),我们创建了一个解决方案,该解决方案采用FOA输入并提供…

影响模型对非典型语音的普遍性较弱

Affect Models Have Weak Generalizability to Atypical Speech

语音和语音条件可以改变语音的声学特性,这可能会影响副语言模型的表现,以表达对非典型语音的影响。我们评估了公开可用的模型,以识别非典型语音数据集中语音的分类和维度影响,并将结果与典型语音的数据集进行了比较。我们研究了语音非典型性的三个维度:与发音有关的清晰度; Monopitch与韵律和苛刻有关,这与语音质量有关。我们查看(1)…

stiv:可扩展的文本和图像条件视频生成

STIV: Scalable Text and Image Conditioned Video Generation

视频生成领域取得了显着的进步,但是仍然需要清晰,系统的食谱,可以指导健壮和可扩展模型的开发。在这项工作中,我们介绍了一项全面的研究,该研究系统地探讨了模型体系结构,培训配方和数据策略的相互作用,最终以一种名为STIV的简单且可扩展的文本图像条件的视频生成方法。我们的框架将图像条件通过框架更换整合到扩散变压器(DIT)中,同时通过…

全球校准如何增强多通用

How Global Calibration Strengthens Multiaccuracy

多循环级和多核算是预测的多组公平概念,这些概念在学习和计算复杂性中发现了许多应用。可以从单个学习原始学习中实现它们:弱的不可知论学习。在这里,我们调查了多个学习原始性的功能,无论有没有其他校准的假设。我们发现,多扫描本身相当薄弱,但是添加全球校准(此概念称为校准的多辅助性)大大提高了其功能,足以恢复……

外部验证工具可以改善LLM-AS-A-Gudge的注释质量

Can External Validation Tools Can Improve Annotation Quality for LLM-as-a-Judge

对模型响应的成对偏好被广泛收集,以评估和提供大型语言模型(LLMS)的反馈。给定两个对同一输入的替代模型响应,人类或AI注释者选择``更好''响应。这样的数据可以在很难获得传统硬编码指标的域中提供反馈信号(例如,聊天互动的质量),从而帮助衡量模型进度或模型微调(例如,通过从人类反馈中的增强型RLHF学习,RLHF)。但是,对于某些域而言,在…

MRAKL:低资源语言的多语言检索知识图构建

mRAKL: Multilingual Retrieval-Augmented Knowledge Graph Construction for Low-Resourced Languages

知识图代表现实世界实体及其之间的关系。多语言知识图构建(MKGC)是指自动构建或预测多语言环境中知识图的缺失实体的任务。在这项工作中,我们将MKGC任务重新制定为一个问题回答(QA)任务,并介绍MRAKL:基于检索的基于检索的一代(RAG)系统以执行MKGC。我们通过使用主体实体并在问题中链接关系来实现这一目标,并让我们的模型预测尾巴实体作为答案。我们的实验重点…

mmau:跨不同领域的代理能力的整体基准

MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains

大语言模型(LLM)的最新进展增加了对评估其像人类代理能力的全面基准测试的需求。现有的基准测试虽然有用,但通常专注于特定的应用程序方案,强调任务完成,但未能剖析推动这些结果的基本技能。这种缺乏粒度使很难深深地辨别出失败的位置。此外,设置这些环境需要大量的努力,有时会出现不可靠性和可重复性的问题,尤其是在交互式任务中。到…

计算语言学协会(ACL)2025

Association for Computational Linguistics (ACL) 2025

苹果在7月27日至8月1日在奥地利维也纳举行的计算语言学协会(ACL)年会(ACL)年会提出了新的研究。 ACL是计算语言学领域的会议,涵盖了与自然语言计算方法有关的各种各样的研究领域。以下是ACL 2025的苹果赞助研讨会和活动的时间表。

以人为本的机器学习的苹果研讨会2024

Apple Workshop on Human-Centered Machine Learning 2024

一种以人为本的机器学习方法(HCML)涉及设计ML机器学习和AI技术,以优先考虑使用它的人的需求和价值。这导致AI补充并增强了人类能力,而不是更换它们。 HCML领域的研究包括开发透明且可解释的机器学习系统,以帮助人们使用AI更安全,以及预测和预测技术的潜在负面社会影响的策略。以人为中心的方法与我们关注负责人AI相一致的方法…

在模型压缩中信息几何形状和迭代优化:操作器分解

On Information Geometry and Iterative Optimization in Model Compression: Operator Factorization

深度学习模型的不断增长的参数计数需要有效的压缩技术,以在资源受限的设备上部署。本文探讨了信息几何形状的应用,即密度诱导的参数空间指标的研究,以分析模型压缩空间内的现有方法,主要集中于操作员分解。采用这种观点强调了核心挑战:定义最佳的低计算子曼if(或子集)并投射到它上。我们认为可以理解许多成功的模型压缩方法……

在LLM个性化的途中:学习记住用户对话

On the Way to LLM Personalization: Learning to Remember User Conversations

在大型语言模型记忆的研讨会上接受了本文(L2M2)2025.LARGE语言模型(LLMS)已迅速成为各种任务的宝贵助手。但是,它们的有效性受到他们通过个性化对人类偏好和行为量身定制反应的能力的限制。 LLM个性化的先前工作主要集中在样式转移或对用户的小概况融合,因为知识注入仍然是一个开放的挑战。在本文中,我们探索将先前对话的知识注入LLM,以使未来的工作……

aspera:一个模拟环境,用于评估复杂行动执行的计划

ASPERA: A Simulated Environment to Evaluate Planning for Complex Action Execution

这项工作评估了大语言模型(LLM)对能够进行复杂行动执行的数字助手的潜力。这些助手依靠预先训练的编程知识来执行多步目标,通过将助手库中定义的对象和功能撰写为行动执行程序。为了实现这一目标,我们开发了Aspera,该框架包括助理图书馆模拟和人为辅助的LLM数据生成引擎。我们的引擎允许开发人员指导LLM生成由复杂用户查询,模拟状态和…

fastvlm:有效的视觉编码视觉语言模型

FastVLM: Efficient Vision Encoding for Vision Language Models

视觉语言模型(VLMS)可与文本输入一起视觉理解。它们通常是通过将视觉令牌从验证的视觉编码传递到预处理的大型语言模型(LLM)通过投影层来构建的。通过利用视觉编码器的丰富视觉表示以及LLM的世界知识和推理能力,VLM可用于广泛的应用程序,包括可访问性助手,UI导航,机器人技术和GAMING.VLM精度通常可以通过更高的输入图像解决,可以在精确的情况下提高精确折磨,> vlm的精度可以提高。

转向新的嵌入空间:分析由多语言语言模型中模型干预引起的跨语性对齐

Steering into New Embedding Spaces: Analyzing Cross-Lingual Alignment Induced by Model Interventions in Multilingual Language Models

跨语言对齐表示形式是多语言大语言模型(MLLMS)中所需的属性,因为对齐可以提高跨语性任务的性能。通常,对齐需要微调模型,该模型在计算上昂贵且相当大的语言数据,通常可能无法使用。微调替代品是模型干预措施 - 一种操纵模型激活以将生成转向所需方向的方法。我们分析了流行干预措施(寻找专家)对…

BoolFormer:具有变压器逻辑函数的符号回归

Boolformer: Symbolic Regression of Logic Functions with Transformers

本文在ICML 2025的第二个AI上接受了数学研讨会。我们介绍了BoolFormer,这是一种基于变压器的模型,该模型训练有素,旨在执行布尔函数的端到端符号回归。首先,我们证明它可以预测鉴于其完整的真相表,可以预测训练期间未见的复杂功能的紧凑型公式。然后,我们证明,即使有不完整或嘈杂的观察,Boolformer仍然能够找到良好的近似表达式。我们在广泛的现实二进制分类数据集上评估了布尔形式,证明了其作为可解释的替代方案的潜力……