跨语言对齐表示形式是多语言大语言模型(MLLMS)中所需的属性,因为对齐可以提高跨语性任务的性能。通常,对齐需要微调模型,该模型在计算上昂贵且相当大的语言数据,通常可能无法使用。微调替代品是模型干预措施 - 一种操纵模型激活以将生成转向所需方向的方法。我们分析了流行干预措施(寻找专家)对…
Boolformer: Symbolic Regression of Logic Functions with Transformers
本文在ICML 2025的第二个AI上接受了数学研讨会。我们介绍了BoolFormer,这是一种基于变压器的模型,该模型训练有素,旨在执行布尔函数的端到端符号回归。首先,我们证明它可以预测鉴于其完整的真相表,可以预测训练期间未见的复杂功能的紧凑型公式。然后,我们证明,即使有不完整或嘈杂的观察,Boolformer仍然能够找到良好的近似表达式。我们在广泛的现实二进制分类数据集上评估了布尔形式,证明了其作为可解释的替代方案的潜力……
Language Models Improve When Pretraining Data Matches Target Tasks
每个数据选择方法本质上都有一个目标。实际上,这些目标通常通过基准驱动的迭代隐式出现:研究人员制定了选择策略,火车模型,测量基准的性能,然后相应地完善。这提出了一个自然的问题:当我们明确地进行优化时会发生什么?为了探讨这一点,我们提出了以基准为目标的排名(BETR),这是一种基于与基准培训示例的相似性选择预训练文档的简单方法。 betr嵌入基准示例和在共享空间中的预处理文件样本,分数……
Apple Intelligence Foundation Language Models Tech Report 2025
我们介绍了两种多语言的多式联运基础语言模型,使苹果智能在苹果设备和服务上具有功能:(i)通过建筑创新(例如KV-CACHE共享和2位量化量化的培训)为Apple Silicon优化了〜3B参数的启用式启动模型; (ii)建立在新型的并行轨道混合物(PT-MOE)变压器上的可扩展服务器模型,该模型结合了轨道并行性,稀疏计算的混合物和交织的全球 - 单位关注,以使高质量与竞争性成本相互交流,以使苹果的私人云计算……
PREAMBLE: Private and Efficient Aggregation via Block Sparse Vectors
我们重新审查了在PRIO等两级服务器系统中高维向量的安全聚合的问题。这些系统通常用于汇总媒介,例如私人联合学习中的梯度,在该学习中,通过噪声来保护聚合本身以确保差异隐私。现有方法需要具有维数的沟通缩放,因此限制了向量的维度,可以在此设置中有效处理。我们提出序言:{\ bf pr} ivate {\ bf e} fficient {\ bf a} ggregation {\ bf a} ggregation {\ bf m} e} uclidean矢量…
AXLearn: Modular Large Model Training on Heterogeneous Infrastructure
我们设计和实施Axlearn,这是一种生产深度学习系统,可促进大型深度学习模型的可扩展和高性能培训。与其他最先进的深度学习系统相比,Axlearn独特着重于模块化和对异质硬件基础架构的支持。 Axlearn在软件组件之间的内部接口遵循严格的封装,从而可以组装不同的组件,以促进对异质计算基础架构的快速模型开发和实验。我们引入了一种新颖的方法,可以通过…
ILuvUI: Instruction-Tuned Language-Vision Modeling of UIs from Machine Conversations
多模式视觉模型(VLMS)从对图像和语言的融合理解中启用了强大的应用程序,由于缺乏UI培训数据,Butmany在UI任务上的表现较差。在本文中,我们通过将现有基于像素的方法与大语言模型(LLM)相结合,以将VLM的配对文本构想数据与UI域生成对UI域。与Plior Art不同,我们的方法不需要人提供的注释,并且可以应用于UI屏幕截图的任何数据集。我们生成了335K的对话示例的adataset,并与涵盖问答的UI配对,UI…
虽然已经对联邦学习(FL)和差异隐私(DP)进行了广泛的研究,但由于训练大型变压器模型的挑战,它们在自动语音识别(ASR)中的应用仍未得到探索。具体而言,大型模型进一步加剧了FL中的问题,因为它们特别容易受到各个层的梯度异质性的影响,这与在浅层模型中观察到的相对均匀的梯度行为不同。结果,即使在没有DP机制的情况下,先前的工作也很难融合标准优化技术。据我们所知……
Overcoming Vocabulary Constraints with Pixel-level Fallback
子字代币化需要平衡计算效率和词汇覆盖范围,这通常会导致在培训期间未优先考虑的语言和脚本上表现出色的性能。我们建议使用无词汇编码器来增强审计的语言模型,该模型从呈现为像素的文本中生成输入嵌入。通过以英语为中心的语言模型进行的实验,我们证明了我们的方法可以大大提高机器翻译性能,并促进有效的跨语言转移,优于基于令牌的方法。此外,我们发现…
Apple Machine Learning Research at ICML 2025
苹果研究人员正在通过基本研究来推进AI和ML,并支持更广泛的研究社区并帮助加速该领域的进步,我们通过会议的出版和参与分享了这项研究的大部分研究。下周,国际机器学习会议(ICML)将在加拿大温哥华举行,苹果自豪地再次参加研究社区的这一重要活动,并成为行业赞助商。在主要会议和相关的研讨会上,苹果研究人员将在AI…
Self-reflective Uncertainties: Do LLMs Know Their Internal Answer Distribution?
本文在ICML 2025的可靠和负责任的基础模型(RRFMS)研讨会上接受了本文。不确定量化在将大语言模型(LLMS)带到最终用户时起着关键作用。它的主要目标是LLM应该指出何时不确定其给出答案。尽管过去已经以数值确定性得分来揭示,但我们建议使用LLM的丰富输出空间,LLM的所有可能字符串的空间,以提供描述不确定性的字符串。特别是,我们寻求一个描述LLM答案分布的字符串……
有效地代表多模式大语言模型(MLLM)的3D场景至关重要但具有挑战性。现有方法通常仅依赖2D图像特征,并使用多样化的令牌化方法。这项工作对3D代币结构进行了严格的研究,并系统地比较了基于视频和基于点的表示,同时保持一致的模型骨干和参数。我们提出了一种新颖的方法,该方法通过结合奏鸣曲预处理的点变压器V3编码器的3D点云特征来丰富视觉令牌。我们的实验表明合并明确的…
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache
大型语言模型(LLMS)越来越多地被部署在边缘设备上,以进行长篇文章设置,从而越来越需要快速有效的长篇小说推断。在这些情况下,就GPU内存和延迟而言,键值(KV)缓存是主要的瓶颈,因为必须为每个解码步骤加载完整的KV缓存。虽然投机解码是一种广泛接受的技术来加速自回归解码,但由于KV缓存优化策略效率低下,现有方法通常难以实现大幅加速,并导致较低的接受率。到…
Shielded Diffusion: Generating Novel and Diverse Images using Sparse Repellency
扩散模型正在生成越来越现实的图像。但是,当用相同提示反复反复发电图像时,从业人员通常会获得相同的,极为怀疑的模式的轻微变化。结果,大多数模型无法重新折断数据中固有的多样性,这阻碍了它们与CreativEtasks或为世界模型提供动力的能力。这项工作提出了一种非常有效的和一般的方法,可以将生成的图像从一组参考图像组中驱逐出去。这是通过在散布中引入数据驱动的驱除术语来实现的。
CommVQ: Commutative Vector Quantization for KV Cache Compression
大语言模型(LLMS)越来越多地用于需要长上下文长度的应用中,但是随着连接长度的增长,键值(KV)缓存通常会成为GPU上的内存瓶颈。为了解决这个问题,我们提出了交换矢量量化(COMMVQ),以显着减少长篇小说LLM推理的内存使用情况。首先,我们通过引入轻量级编码器和代码本来压缩KV缓存来利用加法量化,然后可以用简单的矩阵乘法来解码。其次,要解决解码过程中的高计算成本,我们设计了…
A Variational Framework for Improving Naturalness in Generative Spoken Language Models
大型语言模型在文本处理中的成功激发了他们对语音建模的适应。但是,由于语音是连续且复杂的,因此通常将其离散为自回归建模。源自自我监督模型(称为语义令牌)的语音令牌通常集中在语言方面,但忽略了韵律信息。结果,对这些代币进行训练的模型可以产生自然性降低的语音。现有方法试图通过在语义令牌中添加音调功能来解决此问题。但是,单独的音高不能完全代表范围…
Target Concrete Score Matching: A Holistic Framework for Discrete Diffusion
离散扩散是建模和生成离散数据的有前途的框架。在这项工作中,我们提出了目标混凝土评分匹配(TCSM),这是一个新颖而多功能的目标,用于训练和微调离散扩散模型。 TCSM提供了一个具有广泛适用性的一般框架。它直接从数据样本中支持训练前离散扩散模型,许多现有的离散扩散方法自然出现为我们更一般的TCSM框架的特殊情况。此外,相同的TCSM目标扩展到离散扩散模型的训练后,包括…
Faster Rates for Private Adversarial Bandits
我们为对抗性土匪和土匪的问题设计了新的私人算法,并提供了专家建议。对于对抗性匪徒,我们简单有效地转换了任何非私有的匪徒算法到私人强盗算法。实例化我们使用现有的非私有强盗算法的转换给出了O(Ktε)O \ left的上限(\ frac {\ frac {\ sqrt {kt}}} {\ sqrt {\ sqrt {\ varepsilon}}}} O(ktlog(kt)ε)o \ left(\ frac {\ sqrt {kt \ log(kt)}}} {\ varepsilon} \ right)o(εktlog(kt))特别是我们的算法…