MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains
大语言模型(LLM)的最新进展增加了对评估其像人类代理能力的全面基准测试的需求。现有的基准测试虽然有用,但通常专注于特定的应用程序方案,强调任务完成,但未能剖析推动这些结果的基本技能。这种缺乏粒度使很难深深地辨别出失败的位置。此外,设置这些环境需要大量的努力,有时会出现不可靠性和可重复性的问题,尤其是在交互式任务中。到…
mRAKL: Multilingual Retrieval-Augmented Knowledge Graph Construction for Low-Resourced Languages
知识图代表现实世界实体及其之间的关系。多语言知识图构建(MKGC)是指自动构建或预测多语言环境中知识图的缺失实体的任务。在这项工作中,我们将MKGC任务重新制定为一个问题回答(QA)任务,并介绍MRAKL:基于检索的基于检索的一代(RAG)系统以执行MKGC。我们通过使用主体实体并在问题中链接关系来实现这一目标,并让我们的模型预测尾巴实体作为答案。我们的实验重点…
Association for Computational Linguistics (ACL) 2025
苹果在7月27日至8月1日在奥地利维也纳举行的计算语言学协会(ACL)年会(ACL)年会提出了新的研究。 ACL是计算语言学领域的会议,涵盖了与自然语言计算方法有关的各种各样的研究领域。以下是ACL 2025的苹果赞助研讨会和活动的时间表。
Apple Workshop on Human-Centered Machine Learning 2024
一种以人为本的机器学习方法(HCML)涉及设计ML机器学习和AI技术,以优先考虑使用它的人的需求和价值。这导致AI补充并增强了人类能力,而不是更换它们。 HCML领域的研究包括开发透明且可解释的机器学习系统,以帮助人们使用AI更安全,以及预测和预测技术的潜在负面社会影响的策略。以人为中心的方法与我们关注负责人AI相一致的方法…
On the Way to LLM Personalization: Learning to Remember User Conversations
在大型语言模型记忆的研讨会上接受了本文(L2M2)2025.LARGE语言模型(LLMS)已迅速成为各种任务的宝贵助手。但是,它们的有效性受到他们通过个性化对人类偏好和行为量身定制反应的能力的限制。 LLM个性化的先前工作主要集中在样式转移或对用户的小概况融合,因为知识注入仍然是一个开放的挑战。在本文中,我们探索将先前对话的知识注入LLM,以使未来的工作……
On Information Geometry and Iterative Optimization in Model Compression: Operator Factorization
深度学习模型的不断增长的参数计数需要有效的压缩技术,以在资源受限的设备上部署。本文探讨了信息几何形状的应用,即密度诱导的参数空间指标的研究,以分析模型压缩空间内的现有方法,主要集中于操作员分解。采用这种观点强调了核心挑战:定义最佳的低计算子曼if(或子集)并投射到它上。我们认为可以理解许多成功的模型压缩方法……
ASPERA: A Simulated Environment to Evaluate Planning for Complex Action Execution
这项工作评估了大语言模型(LLM)对能够进行复杂行动执行的数字助手的潜力。这些助手依靠预先训练的编程知识来执行多步目标,通过将助手库中定义的对象和功能撰写为行动执行程序。为了实现这一目标,我们开发了Aspera,该框架包括助理图书馆模拟和人为辅助的LLM数据生成引擎。我们的引擎允许开发人员指导LLM生成由复杂用户查询,模拟状态和…
FastVLM: Efficient Vision Encoding for Vision Language Models
视觉语言模型(VLMS)可与文本输入一起视觉理解。它们通常是通过将视觉令牌从验证的视觉编码传递到预处理的大型语言模型(LLM)通过投影层来构建的。通过利用视觉编码器的丰富视觉表示以及LLM的世界知识和推理能力,VLM可用于广泛的应用程序,包括可访问性助手,UI导航,机器人技术和GAMING.VLM精度通常可以通过更高的输入图像解决,可以在精确的情况下提高精确折磨,> vlm的精度可以提高。
跨语言对齐表示形式是多语言大语言模型(MLLMS)中所需的属性,因为对齐可以提高跨语性任务的性能。通常,对齐需要微调模型,该模型在计算上昂贵且相当大的语言数据,通常可能无法使用。微调替代品是模型干预措施 - 一种操纵模型激活以将生成转向所需方向的方法。我们分析了流行干预措施(寻找专家)对…
Boolformer: Symbolic Regression of Logic Functions with Transformers
本文在ICML 2025的第二个AI上接受了数学研讨会。我们介绍了BoolFormer,这是一种基于变压器的模型,该模型训练有素,旨在执行布尔函数的端到端符号回归。首先,我们证明它可以预测鉴于其完整的真相表,可以预测训练期间未见的复杂功能的紧凑型公式。然后,我们证明,即使有不完整或嘈杂的观察,Boolformer仍然能够找到良好的近似表达式。我们在广泛的现实二进制分类数据集上评估了布尔形式,证明了其作为可解释的替代方案的潜力……
Language Models Improve When Pretraining Data Matches Target Tasks
每个数据选择方法本质上都有一个目标。实际上,这些目标通常通过基准驱动的迭代隐式出现:研究人员制定了选择策略,火车模型,测量基准的性能,然后相应地完善。这提出了一个自然的问题:当我们明确地进行优化时会发生什么?为了探讨这一点,我们提出了以基准为目标的排名(BETR),这是一种基于与基准培训示例的相似性选择预训练文档的简单方法。 betr嵌入基准示例和在共享空间中的预处理文件样本,分数……
Apple Intelligence Foundation Language Models Tech Report 2025
我们介绍了两种多语言的多式联运基础语言模型,使苹果智能在苹果设备和服务上具有功能:(i)通过建筑创新(例如KV-CACHE共享和2位量化量化的培训)为Apple Silicon优化了〜3B参数的启用式启动模型; (ii)建立在新型的并行轨道混合物(PT-MOE)变压器上的可扩展服务器模型,该模型结合了轨道并行性,稀疏计算的混合物和交织的全球 - 单位关注,以使高质量与竞争性成本相互交流,以使苹果的私人云计算……
PREAMBLE: Private and Efficient Aggregation via Block Sparse Vectors
我们重新审查了在PRIO等两级服务器系统中高维向量的安全聚合的问题。这些系统通常用于汇总媒介,例如私人联合学习中的梯度,在该学习中,通过噪声来保护聚合本身以确保差异隐私。现有方法需要具有维数的沟通缩放,因此限制了向量的维度,可以在此设置中有效处理。我们提出序言:{\ bf pr} ivate {\ bf e} fficient {\ bf a} ggregation {\ bf a} ggregation {\ bf m} e} uclidean矢量…
ILuvUI: Instruction-Tuned Language-Vision Modeling of UIs from Machine Conversations
多模式视觉模型(VLMS)从对图像和语言的融合理解中启用了强大的应用程序,由于缺乏UI培训数据,Butmany在UI任务上的表现较差。在本文中,我们通过将现有基于像素的方法与大语言模型(LLM)相结合,以将VLM的配对文本构想数据与UI域生成对UI域。与Plior Art不同,我们的方法不需要人提供的注释,并且可以应用于UI屏幕截图的任何数据集。我们生成了335K的对话示例的adataset,并与涵盖问答的UI配对,UI…
虽然已经对联邦学习(FL)和差异隐私(DP)进行了广泛的研究,但由于训练大型变压器模型的挑战,它们在自动语音识别(ASR)中的应用仍未得到探索。具体而言,大型模型进一步加剧了FL中的问题,因为它们特别容易受到各个层的梯度异质性的影响,这与在浅层模型中观察到的相对均匀的梯度行为不同。结果,即使在没有DP机制的情况下,先前的工作也很难融合标准优化技术。据我们所知……
AXLearn: Modular Large Model Training on Heterogeneous Infrastructure
我们设计和实施Axlearn,这是一种生产深度学习系统,可促进大型深度学习模型的可扩展和高性能培训。与其他最先进的深度学习系统相比,Axlearn独特着重于模块化和对异质硬件基础架构的支持。 Axlearn在软件组件之间的内部接口遵循严格的封装,从而可以组装不同的组件,以促进对异质计算基础架构的快速模型开发和实验。我们引入了一种新颖的方法,可以通过…
Overcoming Vocabulary Constraints with Pixel-level Fallback
子字代币化需要平衡计算效率和词汇覆盖范围,这通常会导致在培训期间未优先考虑的语言和脚本上表现出色的性能。我们建议使用无词汇编码器来增强审计的语言模型,该模型从呈现为像素的文本中生成输入嵌入。通过以英语为中心的语言模型进行的实验,我们证明了我们的方法可以大大提高机器翻译性能,并促进有效的跨语言转移,优于基于令牌的方法。此外,我们发现…
Apple Machine Learning Research at ICML 2025
苹果研究人员正在通过基本研究来推进AI和ML,并支持更广泛的研究社区并帮助加速该领域的进步,我们通过会议的出版和参与分享了这项研究的大部分研究。下周,国际机器学习会议(ICML)将在加拿大温哥华举行,苹果自豪地再次参加研究社区的这一重要活动,并成为行业赞助商。在主要会议和相关的研讨会上,苹果研究人员将在AI…