IMPACT: Inflectional Morphology Probes Across Complex Typologies
大型语言模型 (LLM) 在各种多语言基准测试中取得了显着进展,并且越来越多地用于生成和评估非英语语言的文本。然而,虽然它们可能会产生流畅的输出,但仍不清楚这些模型在多大程度上真正掌握了这些语言的潜在语言复杂性,特别是在形态方面。为了研究这一点,我们引入了 IMPACT,这是一个专注于屈折形态的综合生成的评估框架,我们公开发布了该框架,旨在评估五个形态丰富的法学硕士表现……
Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference
推测性解码通过使用草稿模型进行预测来加速 LLM 推理,但收益受到自回归草稿生成成本的限制:增加草稿大小会提高接受率,但会引入额外的延迟开销,从而加剧速度与准确性的权衡。先前的方法(Medusa、Hydra、EAGLE)部分降低了草稿成本,但要么降低了接受度,要么引入了限制扩展的开销。我们提出了镜像推测解码(Mirror-SD),这是一种打破延迟与接受权衡的推理算法。 Mirror-SD 从...启动分支完整部署
MoE-PHDS: One MoE Checkpoint for Flexible Runtime Sparsity
稀疏专家混合 (MoE) 通常经过训练以在固定的稀疏级别上运行,例如top-k 门函数中的 k。该全局稀疏度水平决定了精度/延迟曲线上的操作点;目前,满足多个效率目标意味着训练和维护多个模型。这种做法使服务变得复杂,增加了培训和维护成本,并限制了满足不同延迟、效率和能源要求的灵活性。我们证明,预训练的 MoE 对运行时稀疏性变化的鲁棒性比通常假设的要强,并引入了 MoE-PHDS ({\bf...
COMPASS: A Multi-Turn Benchmark for Tool-Mediated Planning & Preference Optimization
现实世界的大语言模型(LLM)代理必须通过多轮交互掌握策略工具的使用和用户偏好优化,以协助用户完成复杂的规划任务。我们引入了 COMPASS(通过多轮规划和战略解决方案进行约束优化),这是一个根据实际旅行规划场景评估代理商的基准。我们将旅行计划视为一个受约束的偏好优化问题,其中代理必须满足硬约束,同时优化软用户偏好。为了支持这一点,我们建立了一个现实的旅行数据库,涵盖……
GRACE: A Language Model Framework for Explainable Inverse Reinforcement Learning
逆强化学习旨在从专家演示中恢复奖励模型,但传统方法会产生难以解释和调试的“黑盒”模型。在这项工作中,我们介绍了 GRACE(生成奖励作为 CodE),这是一种在进化搜索中使用大型语言模型来直接从专家轨迹逆向工程可解释的、基于代码的奖励函数的方法。由此产生的奖励函数是可以检查和验证的可执行代码。我们在 BabyAI 和 AndroidWorld 基准上凭经验验证 GRACE,它可以有效地学习……
On Fitting Flow Models with Large Sinkhorn Couplings
流模型将数据逐渐从一种模态(例如噪声)转换为另一种模态(例如图像)。此类模型通过与时间相关的速度场进行参数化,并经过训练以拟合连接源点和目标点对的线段。当给定源点和目标点之间的配对时,训练流模型可以归结为监督回归问题。当不存在这样的配对时,就像从噪声生成数据时的情况一样,训练流程会困难得多。一种流行的方法是独立选择源点和目标点。然而,这可能会导致速度场变慢......
在这项工作中,我们实证研究了用于文本到图像生成的扩散变压器 (DiT),重点关注架构选择、文本调节策略和训练协议。我们评估了一系列基于 DiT 的架构(包括 PixArt 风格和 MMDiT 变体),并将它们与直接处理串联文本和噪声输入的标准 DiT 变体进行比较。令人惊讶的是,我们的研究结果表明,标准 DiT 的性能与那些专用模型相当,同时表现出卓越的参数效率,尤其是在扩大规模时。利用分层......
Assessing the Role of Data Quality in Training Bilingual Language Models
双语和多语言语言模型为跨不同语言和用户扩展 NLP 系统提供了一条有前途的道路。然而,它们的性能通常在不同语言之间存在很大差异,因为先前的研究表明,添加更多语言可能会降低某些语言(例如英语)的性能,同时改善其他语言(通常是数据受限的语言)。在这项工作中,我们通过比较双语和单语语言模型来调查这些不一致的原因。我们的分析表明,不平等的数据质量(而不仅仅是数据数量)是性能的主要驱动因素......
从智能手机和可穿戴设备被动获取的数据可以提供近乎连续的客观信息,从而能够量化受心理健康状况(包括抑郁和焦虑)影响的广泛生理、行为和情感领域的状态和特征。这种数字表型分析的广泛应用可能会改变研究和临床护理中对抑郁和焦虑的评估,但该领域缺乏有力的纵向研究来证明这种方法的实用性。本文介绍了数字化...的设计和实现
ChipChat: Low-Latency Cascaded Conversational Agent in MLX
大语言模型 (LLM) 的出现改变了口语对话系统,但实时设备语音代理的最佳架构仍然是一个悬而未决的问题。虽然端到端方法在理论上具有优势,但级联系统(CS)在语言理解任务中继续优于它们,尽管受到顺序处理延迟的限制。在这项工作中,我们介绍了 ChipChat,这是一种新颖的低延迟 CS,它通过架构创新和流优化克服了传统瓶颈。我们的系统集成了流式(a)会话语音......
Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling
标准离散扩散模型通过将所有未观察到的状态映射到吸收 [MASK] 标记来同等对待它们。这会产生一个“信息空白”,其中可以从未屏蔽的标记推断出的语义信息在去噪步骤之间丢失。我们引入了连续增强离散扩散(CADD),这是一个通过连续潜在空间中的成对扩散来增强离散状态空间的框架。这会产生分级的、逐渐损坏的状态,其中屏蔽的标记由嘈杂但信息丰富的潜在向量表示,而不是崩溃的“信息空白”。在...
Multi-View Causal Discovery without Non-Gaussianity: Identifiability and Algorithms
因果发现是一个难题,通常依赖于对数据生成模型的强假设,例如非高斯性。在实践中,许多现代应用程序提供同一系统的多个相关视图,这很少被考虑用于因果发现。在这里,我们利用这种多视图结构来实现弱假设的因果发现。我们提出了一种多视图线性结构方程模型(SEM),它通过交替利用视图的相关性来扩展众所周知的非高斯扰动框架。我们证明了……的可识别性
Chain-of-Sketch: Enabling Global Visual Reasoning
现代视觉模型在基准测试中取得了显着的成功,其中局部特征提供了有关目标的关键信息。现在,人们越来越有兴趣处理需要更多全局推理的任务,其中局部特征无法提供重要信息。 Minsky 和 Papert 于 1969 年通过连通性研究提出了此类任务,暴露了感知器模型的局限性。在本文中,我们介绍了一组扩展的全局视觉数据集,涉及图形、字符串、迷宫和图像网格。我们表明大型视觉模型仍然难以学习这些任务......
Semantic Mastery: Enhancing LLMs with Advanced Natural Language Understanding
大型语言模型(LLM)极大地提高了执行 NLP 任务的能力。然而,更深入的语义理解、上下文连贯性和更微妙的推理仍然很难获得。本文讨论了通过更先进的 NLU 技术(例如语义解析、知识整合和上下文强化学习)推进法学硕士发展的最先进方法。我们分析了结构化知识图、检索增强生成(RAG)以及将模型与人类理解水平相匹配的微调策略的使用。此外,我们解决...
Reinforcement Learning Integrated Agentic RAG for Software Test Cases Authoring
本文介绍了一个将强化学习 (RL) 与自主代理集成在一起的框架,以持续改进质量工程 (QE) 工作流程中根据业务需求文档编写软件测试用例的自动化过程。采用大型语言模型 (LLM) 的传统系统从静态知识库生成测试用例,这从根本上限制了它们随着时间的推移提高性能的能力。我们提出的强化注入代理 RAG(检索、增强、生成)框架通过采用人工智能代理来克服这一限制……
Semantic Regexes: Auto-Interpreting LLM Features with a Structured Language
自动可解释性旨在将大型语言模型 (LLM) 特征转换为人类可理解的描述。然而,这些自然语言特征描述往往模糊、不一致,需要手动重新标记。作为回应,我们引入了语义正则表达式,即 LLM 功能的结构化语言描述。通过将捕获语言和语义特征模式的原语与上下文化、组合和量化的修饰符相结合,语义正则表达式可以生成精确且富有表现力的特征描述。跨越定量基准和定性......
适应人类偏好对于创建可提供个性化且有效交互的 AI 代理至关重要。最近的研究表明,法学硕士有可能从用户交互中推断偏好,但它们通常会产生广泛且通用的偏好,无法捕捉人类偏好的独特和个性化本质。本文介绍了 PREDICT,一种旨在提高偏好推断精度和适应性的方法。 PREDICT 包含三个关键要素:(1) 推断偏好的迭代细化,(2) 将偏好分解为……
Hybrid Modeling of Photoplethysmography for Non-Invasive Monitoring of Cardiovascular Parameters
持续心血管监测可以在精准健康中发挥关键作用。然而,一些感兴趣的基本心脏生物标志物,包括每搏输出量和心输出量,需要侵入性测量,例如动脉压波形(APW)。作为一种非侵入性替代方案,光电体积描记法 (PPG) 测量值通常在医院环境中收集。不幸的是,通过 PPG 而不是 APW 来预测关键心脏生物标志物仍然是一个开放的挑战,而且由于缺乏带注释的 PPG 测量结果而变得更加复杂。作为解决方案,我们提出了一种混合方法,该方法使用......