Which Evaluation for Which Model? A Taxonomy for Speech Model Assessment
语音基础模型最近在广泛的任务中取得了非凡的能力。然而,他们的评估在任务和模型类型之间仍然脱节。不同的模型擅长语音处理的不同方面,因此需要不同的评估协议。本文提出了一个统一的分类法来解决以下问题:哪种评估适合哪种模型?该分类法定义了三个正交轴:正在测量的评估方面、尝试任务所需的模型能力以及执行任务或协议要求......
Pretraining with Hierarchical Memories: Separating Long-Tail and Common Knowledge
现代语言模型令人印象深刻的性能提升目前依赖于缩放参数:较大的模型可以存储更多的世界知识并更好地进行推理。然而,将所有世界知识压缩为参数是不必要的,因为每个提示只使用一小部分,并且对于推理时间内存和计算有限的边缘设备来说是不切实际的。我们通过内存增强架构和与现有硬件范例相一致的预训练策略来解决这个缺点。我们引入了小型语言模型,可以访问编码世界知识的大型分层参数存储库。期间...
AgentBuilder: Exploring Scaffolds for Prototyping User Experiences of Interface Agents
由生成式人工智能模型支持的界面代理(称为“代理”)可以根据用户命令自动执行操作。开发代理的一个重要方面是他们的用户体验(即代理体验)。人们越来越需要为人工智能工程师之外的更广泛的个人提供支架来原型代理体验,因为他们可以为设计代理体验贡献宝贵的观点。在这项工作中,我们通过对 12 名具有不同经验的参与者进行需求启发研究,探索了可供性代理原型系统应提供的功能......
AdaBoN: Adaptive Best-of-N Alignment
测试时间对齐方法的最新进展(例如 Best-of-N 采样)提供了一种简单而有效的方法,可以使用奖励模型 (RM) 引导语言模型 (LM) 转向首选行为。然而,这些方法的计算成本可能很高,尤其是在跨提示统一应用而不考虑对齐难度差异的情况下。在这项工作中,我们提出了一种 Best-of-N 对齐的提示自适应策略,可以更有效地分配推理时间计算。出于延迟问题的动机,我们开发了一种两阶段算法:初始探索阶段估计……
Inferring Optical Tissue Properties from Photoplethysmography using Hybrid Amortized Inference
智能可穿戴设备能够通过光电体积描记法 (PPG) 持续跟踪已建立的生物标志物,例如心率、心率变异性和血氧饱和度。正如最近的深度学习 (DL) 研究表明,除了这些指标之外,PPG 波形还包含更丰富的生理信息。然而,深度学习模型通常依赖于生理意义不明确的特征,从而在预测能力、临床可解释性和传感器设计之间造成紧张。我们通过引入 PPGen 来解决这一差距,PPGen 是一种生物物理模型,它将 PPG 信号与可解释的生理和光学联系起来......
Improving User Interface Generation Models from Designer Feedback
尽管接受过大量数据的培训,大多数法学硕士仍无法可靠地生成设计良好的 UI。设计师的反馈对于提高 UI 生成的性能至关重要;然而,我们发现现有的基于评级或排名的 RLHF 方法与设计师的工作流程并不一致,并且忽略了用于批评和改进 UI 设计的丰富原理。在本文中,我们研究了设计师使用评论、草图和直接操作等熟悉的交互方式向 UI 生成模型提供反馈的几种方法。我们首先对 21 进行了一项研究...
NarrativeTrack: Evaluating Video Language Models Beyond the Frame
多模态大语言模型 (MLLM) 在视觉语言推理方面取得了令人瞩目的进展,但它们理解视频中暂时展开的叙述的能力仍未得到充分探索。真正的叙事理解需要以谁在做什么、何时何地为基础,在动态视觉和时间上下文中保持连贯的实体表示。我们引入了 NarrativeTrack,这是第一个通过细粒度的以实体为中心的推理来评估 MLLM 中叙事理解的基准。与仅限于短剪辑或粗略场景级语义的现有基准不同......
BED-LLM: Intelligent Information Gathering with LLMs and Bayesian Experimental Design
我们提出了一种通用方法,用于提高大型语言模型 (LLM) 使用顺序贝叶斯实验设计 (BED) 框架智能、自适应地从用户或其他外部源收集信息的能力。这使得法学硕士能够充当有效的多轮会话代理并与外部环境进行交互。我们的方法称为 BED-LLM(大型语言模型的贝叶斯实验设计),基于迭代选择问题或查询,最大化关于任务的预期信息增益 (EIG)
The Communication Complexity of Distributed Estimation
我们研究标准两方通信模型的扩展,其中 Alice 和 Bob 分别在 XXX 和 YYY 域上持有概率分布 ppp 和 qqq。他们的目标是估计 Ex∼p,y∼q[f(x,y)]\mathbb{E}_{x \sim p, y \sim q}[f(x, y)]Ex∼p,y∼q[f(x,y)] 到双方已知的有界函数 fff 的加性误差 ε\varepsilonε 内。我们将此称为分布式估计问题。这个问题的特殊情况出现在各个领域,包括草图、数据库和学习。我们的目标是了解所需的沟通如何与......
AgREE: Agentic Reasoning for Knowledge Graph Completion on Emerging Entities
开放领域知识图谱补全(KGC)在不断变化的世界中面临着重大挑战,特别是考虑到每日新闻中不断出现新实体时。现有的 KGC 方法主要依赖于预训练语言模型的参数知识、预构建的查询或单步检索,通常需要大量的监督和训练数据。即便如此,他们通常无法捕获有关不受欢迎和/或新兴实体的全面且最新的信息。为此,我们介绍了新兴实体的代理推理(AgREE),这是一本小说……
Efficient Calibration for Decision Making
完美校准的决策理论特征是,寻求最小化期望的适当损失的代理无法通过后处理完美校准的预测器来改善其结果。 Hu 和 Wu (FOCS’24) 使用它来定义称为校准决策损失 (CDL) 的近似校准测量,它测量任何后处理相对于任何适当损失可实现的最大改进。不幸的是,事实证明,由于对预测和标签的黑盒访问,CDL 在离线环境中甚至很难进行弱近似。我们建议绕过这个......
Data-Centric Lessons To Improve Speech-Language Pretraining
口语问答 (SQA) 是有用的交互式人工智能系统的核心功能。最近,发布了几种语音语言模型 (SpeechLM),专门致力于提高其 SQA 性能。然而,尽管其他数据模式的类似研究取得了实质性进展,但由于缺乏对预训练数据处理和管理的受控消融,使得理解哪些因素影响性能变得具有挑战性。在这项工作中,我们通过对预训练 SpeechLM 进行以数据为中心的探索来解决这一差距。我们专注于三个......
DarkDiff: Advancing Low-Light Raw Enhancement by Retasking Diffusion Models for Camera ISP
在极低光照条件下进行高质量摄影虽然具有挑战性,但对于数码相机来说却具有影响力。借助先进的计算硬件,传统的相机图像信号处理器 (ISP) 算法逐渐被高效的深度网络所取代,这些网络可以更智能地增强噪声原始图像。然而,现有的基于回归的模型通常会最大限度地减少像素错误,并导致低光照片或深阴影的过度平滑。最近的工作试图通过从头开始训练扩散模型来解决这一限制,但这些模型仍然难以恢复清晰的图像细节......
Synthetic Bootstrapped Pretraining
我们介绍了合成引导预训练(SBP),这是一种语言模型(LM)预训练过程,它首先从预训练数据集中学习文档之间的关系模型,然后利用它来合成一个巨大的新语料库以进行联合训练。虽然标准预训练教会 LM 学习单个文档中标记之间的因果相关性,但它并不是为了有效地建模丰富的、可学习的文档间相关性而设计的,而这种相关性可能会带来更好的性能。我们通过设计计算匹配的预训练设置并预训练 3B 参数来验证 SBP……
Unified Open-World Segmentation with Multi-Modal Prompts
近年来,开放世界图像分割技术迅速发展,包括开放词汇分割和上下文分割。尽管如此,现有方法仅限于单一模态提示,缺乏复杂的对象感知提示所需的灵活性和准确性。在这项工作中,我们提出了 COSINE,一个统一的开放世界分割模型,它整合了开放词汇分割和上下文分割。通过将开放词汇任务和上下文分割任务构建为可提示的分割任务,COSINE 支持多种输入模式……
GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing
使用自然语言指令编辑图像已成为一种自然且富有表现力的修改视觉内容的方式;然而,评估此类模型的性能仍然具有挑战性。现有的评估方法通常依赖于 CLIP 等图像文本相似度度量,但缺乏精度。在这项工作中,我们引入了一个新的基准,旨在以更扎实的方式评估文本引导图像编辑模型,沿着两个关键维度:(i)功能正确性,通过自动生成的多项选择题进行评估,以验证预期的更改是否成功......
Score Distillation of Flow Matching Models
扩散模型实现了高质量的图像生成,但受到缓慢的迭代采样的限制。蒸馏方法通过一步或几步生成来缓解这一问题。流匹配最初是作为一个独特的框架引入的,后来被证明在理论上等同于高斯假设下的扩散,这就提出了蒸馏技术(例如分数蒸馏)是否可以直接转移的问题。我们提供了一个简单的推导——基于贝叶斯规则和条件期望——统一了高斯扩散和流量匹配,而不依赖于 ODE/SDE……
我们推出 UniGen-1.5,这是一种用于高级图像理解、生成和编辑的统一多模态大语言模型 (MLLM)。在UniGen的基础上,我们全面增强了模型架构和训练流程,以增强图像理解和生成能力,同时释放强大的图像编辑能力。特别是,我们提出了一种统一的强化学习(RL)策略,通过共享奖励模型共同改进图像生成和图像编辑。为了进一步增强图像编辑性能,我们提出了一个轻型编辑指令对齐阶段......