Soup-of-Experts: Pretraining Specialist Models via Parameters Averaging
大规模模型经常在不同的数据源的混合物上进行培训。不同的数据混合物产生了非常不同的下游性能。我们提出了一种新型架构,可以为每个数据混合物实例化一个模型,而不必重新培训模型,而不必重新培训该模型,而不必构成一系列专家的构造,这些构造是一种可实用的组合型组合。直方图。要训练此体系结构,我们采样了随机直方图,实例化相应的模型,然后通过一批数据进行反向处理…
Understanding Input Selectivity in Mamba
State-Space Models (SSMs), and particularly Mamba, have recently emerged as a promising alternative to Transformers.Mamba introduces input selectivity to its SSM layer (S6) andincorporates convolution and gating into its block definition.While these modifications do improve Mamba's performance over
The Super Weight in Large Language Models
最近的作品显示出令人惊讶的结果:一小部分大语言模型(LLM)参数异常值对模型的质量不成比例。 LLM包含数十亿个参数,因此这些小部分(例如0.01%)转化为数十万个参数。在这项工作中,我们提出了一个更令人惊讶的发现:修剪较少的单个参数可以破坏LLM生成文本的能力 - 使困惑度增加了3个数量级,并将零拍的精度降低到猜测。我们提出了一种无数据识别此类参数的方法…
EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video
模仿操纵的学习存在众所周知的数据稀缺问题。与自然语言和2D计算机视觉不同,没有用于灵巧操作的互联网规模的数据语料库。一种吸引人的选择是以自动扩展的数据源为中心的人类视频。但是,现有的大规模数据集(例如EGO4D)没有本机姿势注释,也不关注对象操纵。为此,我们使用Apple Vision Pro来收集Egodex:迄今为止,最大,最多样化的人类操纵数据集。 Egodex有829个小时的Egentric视频,配对3D…
Instruction-Following Pruning for Large Language Models
随着大语言模型(LLM)的快速缩放,结构化修剪已成为一种广泛使用的技术,可以从较大的模型中学习高效,较小的模型,与SCRATCH类似尺寸的模型相比,较大的模型具有出色的性能。在本文中,我们超越了为模型确定固定修剪掩模的传统静态修剪方法,并提出了一种动态的结构化修剪方法。在我们的方法中,修剪面罩是输入依赖性的,并且根据用户指令中描述的信息动态调整。我们的方法称为…
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention
近年来,图像到视频的一代取得了显着突破。但是,生成的帧的3D一致性和相机可控性尚未解决。最近的研究试图将相机控制纳入生成过程中,但是它们的结果通常仅限于简单的轨迹或缺乏从多个不同的相机路径中为同一场景生成一致的视频的能力。为了解决这些局限性,我们介绍了Cavia,这是一个可控制摄像机的多视频视频生成的新型框架,能够转换输入图像……
Evaluating Long Range Dependency Handling in Code Generation LLMs
随着语言模型支持越来越大的上下文大小,评估其使其有效使用该上下文的能力变得越来越重要。我们分析了Several Code生成模型在上下文Windows中使用多个STEPKEY检索任务处理远距离依赖性的能力,最高为8K令牌。与喜欢流行的海景测试的测试相比,这些任务在难度方面逐渐降低,并允许对模型功能进行更多细微的评估。我们发现,当功能…
ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering
精确评估文本提示和生成视频之间的语义一致性仍然是文本到视频(T2V)一代的挑战。现有的文本到视频对齐指标(例如夹克)仅产生粗粒的分数,而无需细粒度的细节细节,无法与人类偏好保持一致。为了解决这一限制,我们提出了ETVA,这是一种通过细粒度的问题产生和回答的新颖的文本到视频对齐方式的评估方法。首先,一个多代理系统解析提示进入语义场景图以生成原子问题。然后,我们设计了一个知识提升的……
随着生成AI的进步,在创建可以通过操作用户界面(UIS)来管理日常任务的自主代理方面正在越来越多的工作。尽管先前的研究已经研究了AI代理如何导航UI并了解UI结构的机制,但代理商及其自主行为的影响(尤其是那些可能是风险或不可逆的人)的影响不足。在这项工作中,我们研究了AI代理采取的移动UI行动的现实影响和后果。我们首先通过一系列…
Advancing Egocentric Video Question Answering with Multimodal Large Language Models
以当前的视频问答(QA)需要模型来处理长途时间推理,第一人称视角以及诸如频繁的摄像机运动之类的专业挑战。本文系统地评估了QAEGO4DV2上的专有和开源多模型模型(MLLMS) - 源自Qaego4d的EgeCentric视频的精制数据集。使用零摄像机和CloseQA设置的零摄像和微调方法评估了四个流行的MLLM(GPT-4O,GEMINI-1.5-PRO,VIDEO-LALAVA-7B和QWEN2-VL-7B-INSTRUCT)。我们将QAEGO4DV2介绍给MitigateAnnotation Noise…
STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis
我们提出了Starflow,这是一种基于标准化流的可扩展生成模型,可在高分辨率图像合成中实现强大的性能。 Starflow的核心是变压器自回旋流量(TARFLOW),它结合了标准化流的表达能力与自回旋变压器的结构化建模功能。我们首先建立了TARFLOW的理论普遍性,用于建模连续分布。在这个基础的基础上,我们介绍了几种关键的建筑和算法创新,以显着提高可扩展性:(1)深刺……
Phonetically-Augmented Discriminative Rescoring for Voice Search Error Correction
端到端(E2E)自动语音识别(ASR)模型是使用配对的音频文本样本训练的,这些样品的获取昂贵,因为高质量的地面图数据需要人体注释。语音搜索应用程序(例如数字媒体播放器)利用ASR允许用户通过语音搜索而不是屏幕键盘。但是,在E2E ASR系统的训练数据中可能没有足够的代表或不足的电影标题,因此可能会受到较差的认可。在本文中,我们提出了一个语音校正系统,该系统由(a)基于…
Normalizing Flows are Capable Generative Models
标准化流(NFS)是基于连续输入的可能性模型。他们在密度估计和生成建模任务上都表现出了令人鼓舞的结果,但近年来受到了相对较少的关注。在这项工作中,我们证明了NFS比以前认为的强大。我们提出TARFLOW:一种简单且可扩展的体系结构,可实现高性能的NF模型。 TARFlow可以被认为是基于变压器的掩蔽自回旋流量(MAFS)的变体:它由图像补丁上的一堆自动回归变压器块组成……
Disentangled Safety Adapters Enable Efficient Guardrails and Flexible Inference-Time Alignment
现有用于确保AI安全性的范例,例如护栏模型和对齐训练,通常会损害推理效率或发展灵活性。我们引入了解开的安全适配器(DSA),这是一个新颖的框架,通过将特定于任务优化的基本模型解耦来解决这些挑战。 DSA利用轻巧的适配器来利用基本模型的内部表示形式,从而实现了多种而灵活的安全功能,对推断成本的影响很小。从经验上讲,基于DSA的安全护栏的表现要优于相当优于……
语言模型(LMS)中的不确定性定量(UQ)是提高其安全性和可靠性的关键。评估通常使用诸如AUROC之类的指标来评估UQ方法(例如,负序列概率)与任务正确性函数(例如Rouge-l)的相关程度如何。我们表明,当UQ方法和正确性函数都被相同的因素偏置时,相同的偏见 - 系统扭曲评估。首先,我们正式证明任何互助非随机偏向AUROC排名,都会损害基准的完整性。其次,我们通过广泛的测试7来证实这是经验上发生的……
Trade-offs in Data Memorization via Strong Data Processing Inequalities
最近的研究表明,培训大语言模型涉及大量培训数据的记忆。在敏感用户数据上培训培训时,这种记忆可能会导致侵犯隐私,从而激发了对数据记忆在学习中的作用的研究。在这项工作中,我们开发了一种通用方法来证明过度数据记忆的下限,该方法依赖于强烈的数据处理不平等和数据记忆之间的新联系。然后,我们证明了几个简单而自然的二进制分类问题在…
Aligning LLMs by Predicting Preferences from User Writing Samples
适应人类的偏好对于创建提供个性化和有效互动的一致性LLM代理至关重要。最近的工作表明,LLM充当写作代理来推断用户偏好的描述。然后,代理对齐来自根据推论的偏好描述的条件。但是,现有方法通常会产生通用的偏好描述,而这些描述无法捕获人类偏好的独特性和个性化的性质。本文介绍了散文,这种方法旨在增强用户推论的偏好描述的精度…
Variational Rectified Flow Matching
我们研究变异的整流流匹配,该框架通过建模多模式速度矢量场来增强经典的整流流匹配。在推理时,经典的整流流匹配“移动”样品通过沿速度向量场的集成求解普通的微分方程,从源分布到目标分布。在训练时,通过线性插值从源来绘制的耦合样品和一个随机从目标分布中绘制的耦合样品,从而学习了速度矢量场。这导致“地面真相”'速度…