Apple机器学习研究领域信息情报检索

Apple的机器学习团队致力于进行机器学习和人工智能的最新研究。了解最新的进展。我们的机器学习研究团队合作交流,为每天改善数百万人生活的惊人体验作出贡献。

AgREE:新兴实体知识图补全的代理推理

AgREE: Agentic Reasoning for Knowledge Graph Completion on Emerging Entities

开放领域知识图谱补全(KGC)在不断变化的世界中面临着重大挑战,特别是考虑到每日新闻中不断出现新实体时。现有的 KGC 方法主要依赖于预训练语言模型的参数知识、预构建的查询或单步检索,通常需要大量的监督和训练数据。即便如此,他们通常无法捕获有关不受欢迎和/或新兴实体的全面且最新的信息。为此,我们介绍了新兴实体的代理推理(AgREE),这是一本小说……

GIE-Bench:面向文本引导图像编辑的接地评估

GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing

使用自然语言指令编辑图像已成为一种自然且富有表现力的修改视觉内容的方式;然而,评估此类模型的性能仍然具有挑战性。现有的评估方法通常依赖于 CLIP 等图像文本相似度度量,但缺乏精度。在这项工作中,我们引入了一个新的基准,旨在以更扎实的方式评估文本引导图像编辑模型,沿着两个关键维度:(i)功能正确性,通过自动生成的多项选择题进行评估,以验证预期的更改是否成功......

UniGen-1.5:通过强化学习中的奖励统一增强图像生成和编辑

UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning

我们推出 UniGen-1.5,这是一种用于高级图像理解、生成和编辑的统一多模态大语言模型 (MLLM)。在UniGen的基础上,我们全面增强了模型架构和训练流程,以增强图像理解和生成能力,同时释放强大的图像编辑能力。特别是,我们提出了一种统一的强化学习(RL)策略,通过共享奖励模型共同改进图像生成和图像编辑。为了进一步增强图像编辑性能,我们提出了一个轻型编辑指令对齐阶段......

DarkDiff:通过重新分配相机 ISP 的扩散模型来推进低光原始增强

DarkDiff: Advancing Low-Light Raw Enhancement by Retasking Diffusion Models for Camera ISP

在极低光照条件下进行高质量摄影虽然具有挑战性,但对于数码相机来说却具有影响力。借助先进的计算硬件,传统的相机图像信号处理器 (ISP) 算法逐渐被高效的深度网络所取代,这些网络可以更智能地增强噪声原始图像。然而,现有的基于回归的模型通常会最大限度地减少像素错误,并导致低光照片或深阴影的过度平滑。最近的工作试图通过从头开始训练扩散模型来解决这一限制,但这些模型仍然难以恢复清晰的图像细节......

综合引导预训练

Synthetic Bootstrapped Pretraining

我们介绍了合成引导预训练(SBP),这是一种语言模型(LM)预训练过程,它首先从预训练数据集中学习文档之间的关系模型,然后利用它来合成一个巨大的新语料库以进行联合训练。虽然标准预训练教会 LM 学习单个文档中标记之间的因果相关性,但它并不是为了有效地建模丰富的、可学习的文档间相关性而设计的,而这种相关性可能会带来更好的性能。我们通过设计计算匹配的预训练设置并预训练 3B 参数来验证 SBP……

具有多模式提示的统一开放世界分割

Unified Open-World Segmentation with Multi-Modal Prompts

近年来,开放世界图像分割技术迅速发展,包括开放词汇分割和上下文分割。尽管如此,现有方法仅限于单一模态提示,缺乏复杂的对象感知提示所需的灵活性和准确性。在这项工作中,我们提出了 COSINE,一个统一的开放世界分割模型,它整合了开放词汇分割和上下文分割。通过将开放词汇任务和上下文分割任务构建为可提示的分割任务,COSINE 支持多种输入模式……

以数据为中心的课程来改进语音语言预训练

Data-Centric Lessons To Improve Speech-Language Pretraining

口语问答 (SQA) 是有用的交互式人工智能系统的核心功能。最近,发布了几种语音语言模型 (SpeechLM),专门致力于提高其 SQA 性能。然而,尽管其他数据模式的类似研究取得了实质性进展,但由于缺乏对预训练数据处理和管理的受控消融,使得理解哪些因素影响性能变得具有挑战性。在这项工作中,我们通过对预训练 SpeechLM 进行以数据为中心的探索来解决这一差距。我们专注于三个......

流量匹配模型的评分蒸馏

Score Distillation of Flow Matching Models

扩散模型实现了高质量的图像生成,但受到缓慢的迭代采样的限制。蒸馏方法通过一步或几步生成来缓解这一问题。流匹配最初是作为一个独特的框架引入的,后来被证明在理论上等同于高斯假设下的扩散,这就提出了蒸馏技术(例如分数蒸馏)是否可以直接转移的问题。我们提供了一个简单的推导——基于贝叶斯规则和条件期望——统一了高斯扩散和流量匹配,而不依赖于 ODE/SDE……

不到一秒的锐利单目视图合成

Sharp Monocular View Synthesis in Less Than a Second

我们提出了 SHARP,一种从单个图像合成逼真视图的方法。给定一张照片,SHARP 会回归所描绘场景的 3D 高斯表示的参数。在标准 GPU 上,通过神经网络的单个前馈传递,这一过程可在不到一秒的时间内完成。然后可以实时渲染由 SHARP 生成的 3D 高斯表示,为附近的视图生成高分辨率的逼真图像。该表示是公制的,具有绝对比例,支持公制相机移动。实验结果表明夏普提供......

在测试时重用预训练数据是一个计算乘数

Reusing Pre-Training Data at Test Time is a Compute Multiplier

大型语言模型从庞大的预训练语料库中学习,获得解决不断增加的各种任务的能力;然而,尽管研究人员致力于改进这些数据集,但很少有人努力去了解预训练设备从数据中提取想法和知识的效率。在这项工作中,我们使用检索增强生成和测试时计算来量化预训练过程中留下的数据集价值,以及这种变化在规模上的变化。我们证明了预训练然后从标准中检索......

影响:跨复杂类型的变形形态学探索

IMPACT: Inflectional Morphology Probes Across Complex Typologies

大型语言模型 (LLM) 在各种多语言基准测试中取得了显着进展,并且越来越多地用于生成和评估非英语语言的文本。然而,虽然它们可能会产生流畅的输出,但仍不清楚这些模型在多大程度上真正掌握了这些语言的潜在语言复杂性,特别是在形态方面。为了研究这一点,我们引入了 IMPACT,这是一个专注于屈折形态的综合生成的评估框架,我们公开发布了该框架,旨在评估五个形态丰富的法学硕士表现……

语音推测解码的原则性粗粒度接受

Principled Coarse-Grained Acceptance for Speculative Decoding in Speech

推测性解码通过让快速草稿模型提出由更大的目标模型验证的标记来加速自回归语音生成。然而,对于生成声学标记的语音法学硕士来说,精确的标记匹配过于严格:许多离散标记在声学或语义上是可互换的,从而降低了接受率并限制了加速。我们引入了原则性粗粒度(PCG),它在从目标模型的嵌入空间派生的声学相似性组(ASG)级别验证建议。通过将每个标记的概率质量分布在...

MoE-PHDS:一个 MoE 检查点,实现灵活的运行时稀疏性

MoE-PHDS: One MoE Checkpoint for Flexible Runtime Sparsity

稀疏专家混合 (MoE) 通常经过训练以在固定的稀疏级别上运行,例如top-k 门函数中的 k。该全局稀疏度水平决定了精度/延迟曲线上的操作点;目前,满足多个效率目标意味着训练和维护多个模型。这种做法使服务变得复杂,增加了培训和维护成本,并限制了满足不同延迟、效率和能源要求的灵活性。我们证明,预训练的 MoE 对运行时稀疏性变化的鲁棒性比通常假设的要强,并引入了 MoE-PHDS ({\bf...

DiT-Air:重新审视文本到图像生成中扩散模型架构设计的效率

DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation

在这项工作中,我们实证研究了用于文本到图像生成的扩散变压器 (DiT),重点关注架构选择、文本调节策略和训练协议。我们评估了一系列基于 DiT 的架构(包括 PixArt 风格和 MMDiT 变体),并将它们与直接处理串联文本和噪声输入的标准 DiT 变体进行比较。令人惊讶的是,我们的研究结果表明,标准 DiT 的性能与那些专用模型相当,同时表现出卓越的参数效率,尤其是在扩大规模时。利用分层......

GRACE:可解释逆强化学习的语言模型框架

GRACE: A Language Model Framework for Explainable Inverse Reinforcement Learning

逆强化学习旨在从专家演示中恢复奖励模型,但传统方法会产生难以解释和调试的“黑盒”模型。在这项工作中,我们介绍了 GRACE(生成奖励作为 CodE),这是一种在进化搜索中使用大型语言模型来直接从专家轨迹逆向工程可解释的、基于代码的奖励函数的方法。由此产生的奖励函数是可以检查和验证的可执行代码。我们在 BabyAI 和 AndroidWorld 基准上凭经验验证 GRACE,它可以有效地学习……

镜像推测解码:打破 LLM 推理中的串行障碍

Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference

推测性解码通过使用草稿模型进行预测来加速 LLM 推理,但收益受到自回归草稿生成成本的限制:增加草稿大小会提高接受率,但会引入额外的延迟开销,从而加剧速度与准确性的权衡。先前的方法(Medusa、Hydra、EAGLE)部分降低了草稿成本,但要么降低了接受度,要么引入了限制扩展的开销。我们提出了镜像推测解码(Mirror-SD),这是一种打破延迟与接受权衡的推理算法。 Mirror-SD 从...启动分支完整部署

评估数据质量在训练双语语言模型中的作用

Assessing the Role of Data Quality in Training Bilingual Language Models

双语和多语言语言模型为跨不同语言和用户扩展 NLP 系统提供了一条有前途的道路。然而,它们的性能通常在不同语言之间存在很大差异,因为先前的研究表明,添加更多语言可能会降低某些语言(例如英语)的性能,同时改善其他语言(通常是数据受限的语言)。在这项工作中,我们通过比较双语和单语语言模型来调查这些不一致的原因。我们的分析表明,不平等的数据质量(而不仅仅是数据数量)是性能的主要驱动因素......

COMPASS:工具介导的规划和偏好优化的多轮基准

COMPASS: A Multi-Turn Benchmark for Tool-Mediated Planning & Preference Optimization

现实世界的大语言模型(LLM)代理必须通过多轮交互掌握策略工具的使用和用户偏好优化,以协助用户完成复杂的规划任务。我们引入了 COMPASS(通过多轮规划和战略解决方案进行约束优化),这是一个根据实际旅行规划场景评估代理商的基准。我们将旅行计划视为一个受约束的偏好优化问题,其中代理必须满足硬约束,同时优化软用户偏好。为了支持这一点,我们建立了一个现实的旅行数据库,涵盖……