DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation
扩散大语言模型 (dLLM) 是自回归 (AR) 模型的引人注目的替代品,因为它们的去噪模型在整个序列上运行。 dLLM 的全局规划和迭代细化功能对于代码生成特别有用。然而,目前 dLLM 在编码方面的训练和推理机制仍有待探索。为了揭开 dLLM 解码行为的神秘面纱并释放其编码潜力,我们系统地研究了它们的去噪过程和强化学习 (RL) 方法。我们在 130B 上训练 7B dLLM,\textbf{DiffuCoder}...
ParaRNN: Unlocking Parallel Training of Nonlinear RNNs for Large Language Models
循环神经网络 (RNN) 为序列建模奠定了基础,但其内在的序列性质限制了并行计算,为扩展造成了根本障碍。这导致了 Transformer 等可并行架构以及最近的状态空间模型 (SSM) 的主导地位。虽然 SSM 通过结构化线性递归实现高效并行化,但这种线性约束限制了它们的表达能力,并妨碍对复杂的非线性序列依赖关系进行建模。为了解决这个问题,我们提出了 ParaRNN,一个打破......
The Data-Quality Illusion: Rethinking Classifier-Based Quality Filtering for LLM Pretraining
大型模型是在包含混合质量文档的大量网络爬行数据集上进行预训练的,因此数据过滤至关重要。一种流行的方法是基于分类器的质量过滤 (CQF),它训练二元分类器来区分预训练数据和小型高质量数据集。它为每个预训练文档分配一个定义为分类器分数的质量分数,并仅保留得分最高的分数。我们对 CQF 进行了深入分析。我们表明,虽然 CQF 提高了下游任务性能,但它不一定能增强高质量的语言建模......
Over-Searching in Search-Augmented Large Language Models
搜索增强型大语言模型(LLM)通过集成外部检索,擅长知识密集型任务。然而,它们经常过度搜索——不必要地调用搜索工具,即使它不能提高响应质量,这会导致计算效率低下,并因合并不相关的上下文而产生幻觉。在这项工作中,我们对跨多个维度的过度搜索进行了系统评估,包括查询类型、模型类别、检索条件和多轮对话。我们的发现表明:(i) 搜索通常可以提高……的答案准确性
DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
现实应用中的多模态大型语言模型 (MLLM) 需要访问外部知识源,并且必须保持对动态且不断变化的现实世界信息的响应,以便解决信息查找和知识密集型用户查询。现有的方法,例如检索增强生成 (RAG) 方法、搜索代理和配备搜索的 MLLM,通常会遇到僵化的管道、过多的搜索调用和构造不良的搜索查询,从而导致效率低下和结果不佳。为了解决这些限制,我们提出......
Multivariate Conformal Prediction using Optimal Transport
保形预测 (CP) 通过构建可信输出集来量化机器学习模型的不确定性。这些集合是通过利用所谓的一致性分数(使用输入兴趣点计算的数量)、预测模型和过去的观察结果来构建的。然后通过评估所有可能输出的一致性分数并根据分数的排名来选择它们来获得CP集。由于这个排名步骤,大多数 CP 方法依赖于单变量的评分函数。将这些分数扩展到多元空间的挑战在于……
MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
大型语言模型 (LLM) 的生成质量通常可以通过利用推理时间序列级缩放方法(例如思想链)来提高。我们引入了超并行扩展,这是一种补充框架,可以提高令牌级别的预测质量。超并行扩展计算并聚合模型中单个令牌的多个输出建议。我们在专家混合 (MoE) 模型中实现这一概念,我们将其称为专家名册 (RoE)。 RoE 是一种免训练推理算法,可将单个 MoE 转变为 MoE 的动态集合。投资回报率...
MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer
能够理解和生成视觉内容的统一多模式大语言模型 (LLM) 拥有巨大的潜力。然而,现有的开源模型通常会受到这些功能之间性能权衡的影响。我们提出了 Manzano,一个简单且可扩展的统一框架,通过将混合图像标记器与精心策划的训练方案相结合,大大减少了这种紧张。单个共享视觉编码器为两个轻量级适配器提供数据,这些适配器在公共…内生成用于图像到文本理解的连续嵌入和用于文本到图像生成的离散标记。
Inferring Optical Tissue Properties from Photoplethysmography using Hybrid Amortized Inference
智能可穿戴设备能够通过光电体积描记法 (PPG) 持续跟踪已建立的生物标志物,例如心率、心率变异性和血氧饱和度。正如最近的深度学习 (DL) 研究表明,除了这些指标之外,PPG 波形还包含更丰富的生理信息。然而,深度学习模型通常依赖于生理意义不明确的特征,从而在预测能力、临床可解释性和传感器设计之间造成紧张。我们通过引入 PPGen 来解决这一差距,PPGen 是一种生物物理模型,它将 PPG 信号与可解释的生理和光学联系起来......
Which Evaluation for Which Model? A Taxonomy for Speech Model Assessment
语音基础模型最近在广泛的任务中取得了非凡的能力。然而,他们的评估在任务和模型类型之间仍然脱节。不同的模型擅长语音处理的不同方面,因此需要不同的评估协议。本文提出了一个统一的分类法来解决以下问题:哪种评估适合哪种模型?该分类法定义了三个正交轴:正在测量的评估方面、尝试任务所需的模型能力以及执行任务或协议要求......
AdaBoN: Adaptive Best-of-N Alignment
测试时间对齐方法的最新进展(例如 Best-of-N 采样)提供了一种简单而有效的方法,可以使用奖励模型 (RM) 引导语言模型 (LM) 转向首选行为。然而,这些方法的计算成本可能很高,尤其是在跨提示统一应用而不考虑对齐难度差异的情况下。在这项工作中,我们提出了一种 Best-of-N 对齐的提示自适应策略,可以更有效地分配推理时间计算。出于延迟问题的动机,我们开发了一种两阶段算法:初始探索阶段估计……
Pretraining with Hierarchical Memories: Separating Long-Tail and Common Knowledge
现代语言模型令人印象深刻的性能提升目前依赖于缩放参数:较大的模型可以存储更多的世界知识并更好地进行推理。然而,将所有世界知识压缩为参数是不必要的,因为每个提示只使用一小部分,并且对于推理时间内存和计算有限的边缘设备来说是不切实际的。我们通过内存增强架构和与现有硬件范例相一致的预训练策略来解决这个缺点。我们引入了小型语言模型,可以访问编码世界知识的大型分层参数存储库。期间...
AgentBuilder: Exploring Scaffolds for Prototyping User Experiences of Interface Agents
由生成式人工智能模型支持的界面代理(称为“代理”)可以根据用户命令自动执行操作。开发代理的一个重要方面是他们的用户体验(即代理体验)。人们越来越需要为人工智能工程师之外的更广泛的个人提供支架来原型代理体验,因为他们可以为设计代理体验贡献宝贵的观点。在这项工作中,我们通过对 12 名具有不同经验的参与者进行需求启发研究,探索了可供性代理原型系统应提供的功能......
NarrativeTrack: Evaluating Video Language Models Beyond the Frame
多模态大语言模型 (MLLM) 在视觉语言推理方面取得了令人瞩目的进展,但它们理解视频中暂时展开的叙述的能力仍未得到充分探索。真正的叙事理解需要以谁在做什么、何时何地为基础,在动态视觉和时间上下文中保持连贯的实体表示。我们引入了 NarrativeTrack,这是第一个通过细粒度的以实体为中心的推理来评估 MLLM 中叙事理解的基准。与仅限于短剪辑或粗略场景级语义的现有基准不同......
Improving User Interface Generation Models from Designer Feedback
尽管接受过大量数据的培训,大多数法学硕士仍无法可靠地生成设计良好的 UI。设计师的反馈对于提高 UI 生成的性能至关重要;然而,我们发现现有的基于评级或排名的 RLHF 方法与设计师的工作流程并不一致,并且忽略了用于批评和改进 UI 设计的丰富原理。在本文中,我们研究了设计师使用评论、草图和直接操作等熟悉的交互方式向 UI 生成模型提供反馈的几种方法。我们首先对 21 进行了一项研究...
BED-LLM: Intelligent Information Gathering with LLMs and Bayesian Experimental Design
我们提出了一种通用方法,用于提高大型语言模型 (LLM) 使用顺序贝叶斯实验设计 (BED) 框架智能、自适应地从用户或其他外部源收集信息的能力。这使得法学硕士能够充当有效的多轮会话代理并与外部环境进行交互。我们的方法称为 BED-LLM(大型语言模型的贝叶斯实验设计),基于迭代选择问题或查询,最大化关于任务的预期信息增益 (EIG)
AgREE: Agentic Reasoning for Knowledge Graph Completion on Emerging Entities
开放领域知识图谱补全(KGC)在不断变化的世界中面临着重大挑战,特别是考虑到每日新闻中不断出现新实体时。现有的 KGC 方法主要依赖于预训练语言模型的参数知识、预构建的查询或单步检索,通常需要大量的监督和训练数据。即便如此,他们通常无法捕获有关不受欢迎和/或新兴实体的全面且最新的信息。为此,我们介绍了新兴实体的代理推理(AgREE),这是一本小说……
Efficient Calibration for Decision Making
完美校准的决策理论特征是,寻求最小化期望的适当损失的代理无法通过后处理完美校准的预测器来改善其结果。 Hu 和 Wu (FOCS’24) 使用它来定义称为校准决策损失 (CDL) 的近似校准测量,它测量任何后处理相对于任何适当损失可实现的最大改进。不幸的是,事实证明,由于对预测和标签的黑盒访问,CDL 在离线环境中甚至很难进行弱近似。我们建议绕过这个......