MAGI-1 ny öppen källkods autoregressiv videomodell
sand.ai最近发布了Magi-1的开源模型,该模型提供了一个新视频的开源模型。 MAGI-1是一种自动化视频模型,这意味着该模型会刻度创建视频序列,其中每个新的图像框架都基于先前的内容。与市场上的其他模型相比,它以根本不同的方式生成视频。与传统模型不同,例如[…] MAGI-1新的开源代码自动回归视频模型首次出现在AI新闻中。
Scaling Diffusion Language Models via Adaptation from Autoregressive Models
扩散语言模型(DLM)已成为文本生成建模的有希望的新范式,有可能解决自回归(AR)模型的局限性。但是,与AR同行相比,当前的DLM的规模较小,并且缺乏对语言建模基准测试的公平比较。此外,从头开始的训练扩散模型仍然具有挑战性。鉴于开源AR语言模型的流行率,我们建议适应这些模型来构建文本扩散模型。我们演示了AR和扩散建模目标之间的联系以及…
Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling
扩散模型已成为从文本描述生成高质量图像的强大工具。尽管这些模型取得了成功,但它们在采样图像中通常表现出有限的多样性,尤其是在使用高无分类器指导权重进行采样时。为了解决这个问题,我们提出了 Kaleido,这是一种通过结合自回归潜在先验来增强样本多样性的新方法。Kaleido 集成了一个自回归语言模型,该模型对原始标题进行编码并生成潜在变量,作为抽象和中间表示……
Multimodal Autoregressive Pre-Training of Large Vision Encoders
*平等贡献者大型多模态模型中的主导范式是将大型语言解码器与视觉编码器配对。虽然众所周知如何为多模态任务预训练和调整语言解码器,但不太清楚应该如何预训练视觉编码器。事实上的标准是使用判别目标(例如对比损失)预训练视觉编码器。这会导致预训练和生成自回归下游任务之间的不匹配。同时,继语言领域取得成功之后,自回归图像模型已被证明……
Generalizable Autoregressive Modeling of Time Series Through Functional Narratives
时间序列数据本质上是时间的函数,但当前的 Transformer 通常通过将时间序列建模为时间段的简单连接来学习时间序列,而忽略了它们的功能属性。在这项工作中,我们为 Transformer 提出了一个新的目标,即通过将时间序列重新解释为时间函数来学习时间序列。我们通过在功能空间中构建不同强度的退化算子来构建时间序列的替代序列,从而创建原始样本的增强变体,这些变体被抽象或简化到不同的程度。基于新的...
Perceiver AR: general-purpose, long-context autoregressive generation
我们开发了 Perceiver AR,这是一种自回归、模态无关的架构,它使用交叉注意将长距离输入映射到少量潜在输入,同时保持端到端因果掩蔽。Perceiver AR 可以直接处理十万多个标记,无需手工制作的稀疏模式或记忆机制即可实现实用的长上下文密度估计。
Factor Network Autoregressions
请查看 Barigozzi、Cavaliere 和 Moramarco 撰写的文章:http://d.repec.org/n?u=RePEc:arx:papers:2208.02925&r=非常酷的动态“多层网络”方法。在标准的 N 维网络中,有一个 NxN 邻接矩阵。但更丰富的网络可能有许多种连接,每种连接都由自己的邻接矩阵控制。(多么伟大的见解——一旦你听到它,就会觉得如此自然和明显。一个美好的“顿悟时刻”!)所以也许有 K 个可操作的 NxN 邻接矩阵。然后实际上有一个宏大的 3 维邻接矩阵 (NxNxK) 可操作——一个立方矩阵而不是方阵。简约建模变得绝对关键,在这方面,BCM 有效地
Experimenting with autoregressive flows in TensorFlow Probability
继最近对 TensorFlow Probability (TFP) 中的双射函数的介绍之后,这篇文章将自回归引入了讨论。通过新的 R 包 tfprobability 使用 TFP,我们研究了掩蔽自回归流 (MAF) 的实现,并将其用于两个不同的数据集。
Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential
自回归语言模型受其固有的顺序性质的约束,一次产生一个令牌。该范式限制了推理速度和并行性,尤其是在生成阶段的文本方向和语义相对确定时。在这项工作中,我们提出了一个新颖的框架,该框架利用了关于未来令牌的香草自回归语言模型的固有知识,结合了技术来实现这一潜力并能够同时预测随后多个令牌。我们的方法介绍了几项关键创新:(1)A…
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache
大型语言模型(LLMS)越来越多地被部署在边缘设备上,以进行长篇文章设置,从而越来越需要快速有效的长篇小说推断。在这些情况下,就GPU内存和延迟而言,键值(KV)缓存是主要的瓶颈,因为必须为每个解码步骤加载完整的KV缓存。虽然投机解码是一种广泛接受的技术来加速自回归解码,但由于KV缓存优化策略效率低下,现有方法通常难以实现大幅加速,并导致较低的接受率。到…
A Variational Framework for Improving Naturalness in Generative Spoken Language Models
大型语言模型在文本处理中的成功激发了他们对语音建模的适应。但是,由于语音是连续且复杂的,因此通常将其离散为自回归建模。源自自我监督模型(称为语义令牌)的语音令牌通常集中在语言方面,但忽略了韵律信息。结果,对这些代币进行训练的模型可以产生自然性降低的语音。现有方法试图通过在语义令牌中添加音调功能来解决此问题。但是,单独的音高不能完全代表范围…
Gemini Diffusion: Google DeepMinds nya textdiffusionsmodell
双子座扩散是由Google DeepMind开发的实验文本扩散模型,它代表了语言建模方面的重要一步。双子座扩散与传统模型(例如自回归语言模型)之间的区别在于文本的生成方式。尽管这些传统模型为单词构建文本单词,但双子座扩散使用了一种方法,其中它以随机的“噪声”开头,并逐渐[…] Gemini扩散:Google DeepMind的新文本扩散模型首次出现在AI新闻上。
Hybrid AI model crafts smooth, high-quality videos in seconds
CAUSVID生成的AI工具使用扩散模型来教授自回归(逐帧)系统,以迅速生成稳定的高分辨率视频。
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation
扩散模型已成为视觉产生的主要方法。他们是通过deno培训的马尔可夫工艺,该过程逐渐为输入增加了噪音。我们认为,马尔可夫的财产限制了该模型充分利用生成轨迹的能力,从而导致训练和推理期间效率低下。在本文中,我们提出了DART,这是一种基于变压器的模型,该模型统一自回归(AR)和非马克维亚框架内的扩散。飞镖迭代地将图像贴片在空间和光谱上使用与标准相同的架构相同的AR模型
HART kan generera högkvalitativa bilder upp till nio gånger snabbare
马萨诸塞州理工学院(MIT)和NVIDIA共同开发了AI工具Hart(Hybrid自动回旋变压器),该工具彻底改变了图像生成区域。使用独特的混合方法结合了自回归模型和扩散模型,Hard设定了基于AI的图像生产中质量,速度和资源效率的新标准。什么是哈特,为什么这么特别? Hart基于[…] Post Hart可以生成高质量的图像,最高九次,首次出现在AI新闻中。
FlexTok: Resampling Images into 1D Token Sequences of Flexible Length
这项工作是与瑞士联邦技术学院Lausanne(EPFL)合作完成的。图像令牌化已通过提供比原始像素更有效处理的压缩,离散表示,从而实现了自回归图像生成的重大进展。尽管传统方法使用2D网格令牌化,但诸如Titok之类的最新方法表明,1D令牌化可以通过消除网格冗余来实现高生成质量。但是,这些方法通常使用固定数量的令牌,因此无法适应图像的固有复杂性。我们介绍…
Modeling the time series of Scorpion sting in Southwestern Iran
对伊朗西南部蝎子螫伤时间序列进行建模摘要蝎子螫伤在伊朗造成了重大的公共卫生问题,每年导致约 45,000-50,000 例病例和 19 人死亡。蝎子属于蛛形纲,是除南极洲外所有大陆都有的有毒节肢动物。它们在热带和亚热带地区尤其令人担忧。胡泽斯坦省和霍尔木兹甘省报告的发病率最高,估计每年有 36,000 例病例。本研究重点是建模 2017 年至 2022 年舒什塔尔市的蝎子螫伤时间序列数据。我们的目标是利用自回归积分移动平均线 (ARIMA) 模型等高级分析技术来调查蝎子螫伤发病率的季节性和长期趋势。我们应用了季节性 ARIMA 模型来拟合蝎子螫伤发生率的单变量时间序列。这项研究表明,在研究期间
Accelerating LLM Inference on NVIDIA GPUs with ReDrafter
加速 LLM 推理是一个重要的 ML 研究问题,因为自回归 token 生成计算成本高且相对较慢,而提高推理效率可以减少用户的延迟。除了持续努力加速 Apple 芯片上的推理之外,我们最近在加速 NVIDIA GPU 的 LLM 推理方面取得了重大进展,该 GPU 广泛用于整个行业的生产应用程序。今年早些时候,我们发布并开源了 Recurrent Drafter (ReDrafter),这是一种新颖的推测解码方法,达到了最先进的水平……