DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation
扩散模型已成为视觉产生的主要方法。他们是通过deno培训的马尔可夫工艺,该过程逐渐为输入增加了噪音。我们认为,马尔可夫的财产限制了该模型充分利用生成轨迹的能力,从而导致训练和推理期间效率低下。在本文中,我们提出了DART,这是一种基于变压器的模型,该模型统一自回归(AR)和非马克维亚框架内的扩散。飞镖迭代地将图像贴片在空间和光谱上使用与标准相同的架构相同的AR模型
Scaling Diffusion Language Models via Adaptation from Autoregressive Models
扩散语言模型(DLM)已成为文本生成建模的有希望的新范式,有可能解决自回归(AR)模型的局限性。但是,与AR同行相比,当前的DLM的规模较小,并且缺乏对语言建模基准测试的公平比较。此外,从头开始的训练扩散模型仍然具有挑战性。鉴于开源AR语言模型的流行率,我们建议适应这些模型来构建文本扩散模型。我们演示了AR和扩散建模目标之间的联系以及…
Dream 7B Diffusion – Den mest kraftfulla öppna diffusionsspråkmodellen hittills
香港大学(HKU)与华为Noah的Ark La合作,正式推出了Dream 7B。通过此发布,我们已经基于迄今为止的扩散模型收到了最强大的开放语言模型,这有望彻底改变我们将AI用于文本处理,计划和编码的方式。什么是梦7b? Dream 7b是[…] Post Dream 7b扩散的一种新型 - 迄今为止最强大的开放扩散模型首先吸引了AI新闻。
Scaling Up Reinforcement Learning for Traffic Smoothing: A 100-AV Highway Deployment
通过增强学习的培训扩散模型我们部署了100辆加固学习(RL)控制的汽车,进入高速公路的高速公路交通,以使拥挤并减少每个人的燃油消耗。我们的目标是应对“停下来”的波浪,那些令人沮丧的放缓和速度通常没有明确原因,但导致拥挤和大量的能源浪费。为了培训有效的流动式光滑控制器,我们建立了快速,数据驱动的模拟,该模拟与RL代理相互作用,学习以最大程度地提高能源效率,同时保持吞吐量并安全地围绕人驾驶员进行安全操作。总体而言,一小部分控制的自动驾驶汽车(AV)足以显着提高道路上所有驾驶员的交通流量和燃油效率。此外,训练有素的控制器旨在在大多数现代车辆上部署,以分散的方式运行并依靠标准的雷达传感器。在我们的最新
HART kan generera högkvalitativa bilder upp till nio gånger snabbare
马萨诸塞州理工学院(MIT)和NVIDIA共同开发了AI工具Hart(Hybrid自动回旋变压器),该工具彻底改变了图像生成区域。使用独特的混合方法结合了自回归模型和扩散模型,Hard设定了基于AI的图像生产中质量,速度和资源效率的新标准。什么是哈特,为什么这么特别? Hart基于[…] Post Hart可以生成高质量的图像,最高九次,首次出现在AI新闻中。
The Future of RAG-Augmented Image Generation
生成扩散模型(如稳定扩散、通量)和视频模型(如浑元)依赖于使用固定数据集在单个资源密集型训练会话中获得的知识。在此训练之后引入的任何概念(称为知识截止)都不存在于模型中,除非通过微调或外部适应技术(如 […])进行补充。文章《RAG 增强图像生成的未来》首先出现在 Unite.AI 上。
From text to 3D: the magic behind Edify 3D by NVIDIA
NVIDIA 的 Edify 3D 使用 AI 在 2 分钟内创建高质量的 3D 模型。通过结合多视图扩散模型和 Transformers,它可以从文本或图像快速、准确且可扩展地生成 3D,使其成为游戏、动画和设计行业的完美解决方案。
AI weather models can now beat the best traditional forecasts
NASA/GSFC,MODIS 快速反应小组,Jacques Descloitres Vassili Kitsios,CSIRO 根据谷歌 DeepMind 研究人员上个月在《自然》杂志上发表的一篇论文,一种名为 GenCast 的新型机器学习天气预报模型至少在某些情况下可以胜过最好的传统预报系统。 使用类似于人工智能 (AI) 图像的扩散模型方法 [...]
Gen-AI Safety Landscape: A Guide to the Mitigation Stack for Text-to-Image Models
AI 不再狂野:了解驯服 T2I 模型的安全组件了解文本转图像 AI 模型的功能和风险文本转图像模型 (T2I) 是根据文本提示描述生成图像的 AI 系统。潜在扩散模型 (LDM) 正在成为最流行的图像生成架构之一。LDM 首先将图像压缩到“潜在空间”,这是表示图像所需的核心信息的压缩、简化表示,而无需在较少的维度上提供所有详细的像素数据。该模型从此潜在空间中的随机噪声开始,并通过称为扩散的过程逐渐将其细化为清晰的图像,由输入文本引导。LDM 用途广泛,不仅能够生成文本转图像输出,还具有修复等功能,允许用户通过简单描述所需的更改来编辑现有图像的特定部分。例如,您可以通过文本命令无缝地从照片中删
Video Friday: Swiss-Mile Robot vs. Humans
视频星期五是每周精选的精彩机器人视频,由 IEEE Spectrum robotics 的朋友收集。我们还发布未来几个月即将举行的机器人活动日历。请将您的活动发送给我们以供收录。Humanoids 2024:2024 年 11 月 22 日至 24 日,法国南希,享受今天的视频!Swiss-Mile 的机器人(实际上是任何满足运行其软件的硬件要求的机器人)比“大多数人类”都快。那么,这到底意味着什么呢?获胜者是 Riccardo Rancan,他看起来并没有特别努力——他是高速城市定向越野赛的世界冠军,这是一项我以前不知道但听起来很棒的运动。[ Swiss-Mile ]谢谢,Marko!哦,太
如何在不进行条件 dropout 的情况下将无分类器指导 (CFG) 应用于您的扩散模型?扩散模型生成采样的最新替代方案是什么?在本文中找到答案!
Transformer? Diffusion? Transfusion!
最新多模态转输模型的简单介绍最近,Meta 和 Waymo 发布了他们的最新论文 —Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model,该论文将流行的 Transformer 模型与扩散模型相结合,用于多模态训练和预测目的。与 Meta 之前的工作一样,Transfusion 模型基于带有早期融合的 Llama 架构,它同时采用文本 token 序列和图像 token 序列,并使用单个 Transformer 模型来生成预测。但与以前的技术不同,Transfusion 模型对图像 t
VQ4DiT: A Fast Post-Training Vector Quantization Method for DiTs (Diffusion Transformers Models)
文本到图像的扩散模型在根据输入条件生成复杂而忠实的图像方面取得了重大进展。其中,扩散变压器模型 (DiT) 变得特别强大,OpenAI 的 SoRA 是一个值得注意的应用程序。DiT 由堆叠多个变压器块构建而成,利用变压器的缩放属性通过灵活的参数扩展实现增强的性能。文章 VQ4DiT:一种用于 DiT(扩散变压器模型)的快速后训练矢量量化方法首次出现在 AI Quantum Intelligence 上。
Classifier-Free Guidance Is a Predictor-Corrector
我们研究了无分类器指导 (CFG) 的不合理有效性。CFG 是文本到图像扩散模型的条件采样的主要方法,但与扩散的其他方面不同,它的理论基础仍然不稳定。在本文中,我们通过展示 CFG 与 DDPM 和 DDIM 的交互方式不同,并且 CFG 的采样器都不会生成伽马驱动分布,从而反驳了常见的误解。然后,我们通过展示它是一种在去噪和锐化之间交替的预测校正 (PC) 方法来阐明 CFG 的行为,我们称之为……
Mage Space Pricing, Features, Details, Alternatives
什么是 Mage Space? Mage Space 是一款创新的 AI 驱动工具,允许用户根据文本描述生成数字艺术作品。利用稳定扩散模型的功能,Mage Space 使新手和经验丰富的创作者都能够轻松制作出高质量的图像。该平台以其用户友好的界面和多样化的模型选项而闻名,使其成为艺术家、设计师和业余爱好者的多功能工具。Mage Space 支持各种创意任务,从生成基本图像到制作详细和定制的艺术品。 Mage Space 的优缺点 优点:用户友好的界面:即使是初学者也可以使用 Mage Space,不需要 […]
Improving GFlowNets for Text-to-Image Diffusion Alignment
这篇论文被 ICML 2024 的 Foundation Models in the Wild 研讨会接受。扩散模型已成为生成视觉数据的实际方法,这些模型经过训练以匹配训练数据集的分布。此外,我们还希望控制生成以满足所需的属性,例如与文本描述的对齐,这可以通过黑盒奖励函数来指定。先前的工作通过基于强化学习的算法对预训练的扩散模型进行了微调,以实现此目标。尽管如此,它们仍存在一些问题,包括信用分配缓慢……
Digital sorcery in action: “Alchemist” changes material properties in images
麻省理工学院计算机科学和人工智能实验室和谷歌研究院的研究人员似乎用他们的最新发明创造了奇迹:一种可以改变图像中物体材料属性的扩散模型。