扩散模型关键词检索结果

从文本到 3D:NVIDIA 的 Edify 3D 背后的魔力

From text to 3D: the magic behind Edify 3D by NVIDIA

NVIDIA 的 Edify 3D 使用 AI 在 2 分钟内创建高质量的 3D 模型。通过结合多视图扩散模型和 Transformers,它可以从文本或图像快速、准确且可扩展地生成 3D,使其成为游戏、动画和设计行业的完美解决方案。

AI 天气模型现在可以击败最好的传统预报

AI weather models can now beat the best traditional forecasts

NASA/GSFC,MODIS 快速反应小组,Jacques Descloitres Vassili Kitsios,CSIRO 根据谷歌 DeepMind 研究人员上个月在《自然》杂志上发表的一篇论文,一种名为 GenCast 的新型机器学习天气预报模型至少在某些情况下可以胜过最好的传统预报系统。 使用类似于人工智能 (AI) 图像的扩散模型方法 [...]

Gen-AI 安全概况:文本转图像模型缓解堆栈指南

Gen-AI Safety Landscape: A Guide to the Mitigation Stack for Text-to-Image Models

AI 不再狂野:了解驯服 T2I 模型的安全组件了解文本转图像 AI 模型的功能和风险文本转图像模型 (T2I) 是根据文本提示描述生成图像的 AI 系统。潜在扩散模型 (LDM) 正在成为最流行的图像生成架构之一。LDM 首先将图像压缩到“潜在空间”,这是表示图像所需的核心信息的压缩、简化表示,而无需在较少的维度上提供所有详细的像素数据。该模型从此潜在空间中的随机噪声开始,并通过称为扩散的过程逐渐将其细化为清晰的图像,由输入文本引导。LDM 用途广泛,不仅能够生成文本转图像输出,还具有修复等功能,允许用户通过简单描述所需的更改来编辑现有图像的特定部分。例如,您可以通过文本命令无缝地从照片中删

周五视频:Swiss-Mile 机器人与人类

Video Friday: Swiss-Mile Robot vs. Humans

视频星期五是每周精选的精彩机器人视频,由 IEEE Spectrum robotics 的朋友收集。我们还发布未来几个月即将举行的机器人活动日历。请将您的活动发送给我们以供收录。Humanoids 2024:2024 年 11 月 22 日至 24 日,法国南希,享受今天的视频!Swiss-Mile 的机器人(实际上是任何满足运行其软件的硬件要求的机器人)比“大多数人类”都快。那么,这到底意味着什么呢?获胜者是 Riccardo Rancan,他看起来并没有特别努力——他是高速城市定向越野赛的世界冠军,这是一项我以前不知道但听起来很棒的运动。[ Swiss-Mile ]谢谢,Marko!哦,太

无分类器扩散指导概述:模型指导本身版本不佳导致模型指导受损(第 2 部分)

An overview of classifier-free diffusion guidance: impaired model guidance with a bad version of itself (part 2)

如何在不进行条件 dropout 的情况下将无分类器指导 (CFG) 应用于您的扩散模型?扩散模型生成采样的最新替代方案是什么?在本文中找到答案!

Transformer?扩散?输血!

Transformer? Diffusion? Transfusion!

最新多模态转输模型的简单介绍最近,Meta 和 Waymo 发布了他们的最新论文 —Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model,该论文将流行的 Transformer 模型与扩散模型相结合,用于多模态训练和预测目的。与 Meta 之前的工作一样,Transfusion 模型基于带有早期融合的 Llama 架构,它同时采用文本 token 序列和图像 token 序列,并使用单个 Transformer 模型来生成预测。但与以前的技术不同,Transfusion 模型对图像 t

VQ4DiT:一种用于 DiT(扩散变压器模型)的快速训练后矢量量化方法

VQ4DiT: A Fast Post-Training Vector Quantization Method for DiTs (Diffusion Transformers Models)

文本到图像的扩散模型在根据输入条件生成复杂而忠实的图像方面取得了重大进展。其中,扩散变压器模型 (DiT) 变得特别强大,OpenAI 的 SoRA 是一个值得注意的应用程序。DiT 由堆叠多个变压器块构建而成,利用变压器的缩放属性通过灵活的参数扩展实现增强的性能。文章 VQ4DiT:一种用于 DiT(扩散变压器模型)的快速后训练矢量量化方法首次出现在 AI Quantum Intelligence 上。

无分类器指导是一种预测器-校正器

Classifier-Free Guidance Is a Predictor-Corrector

我们研究了无分类器指导 (CFG) 的不合理有效性。CFG 是文本到图像扩散模型的条件采样的主要方法,但与扩散的其他方面不同,它的理论基础仍然不稳定。在本文中,我们通过展示 CFG 与 DDPM 和 DDIM 的交互方式不同,并且 CFG 的采样器都不会生成伽马驱动分布,从而反驳了常见的误解。然后,我们通过展示它是一种在去噪和锐化之间交替的预测校正 (PC) 方法来阐明 CFG 的行为,我们称之为……

Mage Space 定价、功能、详细信息、替代方案

Mage Space Pricing, Features, Details, Alternatives

什么是 Mage Space? Mage Space 是一款创新的 AI 驱动工具,允许用户根据文本描述生成数字艺术作品。利用稳定扩散模型的功能,Mage Space 使新手和经验丰富的创作者都能够轻松制作出高质量的图像。该平台以其用户友好的界面和多样化的模型选项而闻名,使其成为艺术家、设计师和业余爱好者的多功能工具。Mage Space 支持各种创意任务,从生成基本图像到制作详细和定制的艺术品。 Mage Space 的优缺点 优点:用户友好的界面:即使是初学者也可以使用 Mage Space,不需要 […]

改进 GFlowNets 以实现文本到图像扩散对齐

Improving GFlowNets for Text-to-Image Diffusion Alignment

这篇论文被 ICML 2024 的 Foundation Models in the Wild 研讨会接受。扩散模型已成为生成视觉数据的实际方法,这些模型经过训练以匹配训练数据集的分布。此外,我们还希望控制生成以满足所需的属性,例如与文本描述的对齐,这可以通过黑盒奖励函数来指定。先前的工作通过基于强化学习的算法对预训练的扩散模型进行了微调,以实现此目标。尽管如此,它们仍存在一些问题,包括信用分配缓慢……

数字魔法在行动:“炼金术士”改变图像中的材料属性

Digital sorcery in action: “Alchemist” changes material properties in images

麻省理工学院计算机科学和人工智能实验室和谷歌研究院的研究人员似乎用他们的最新发明创造了奇迹:一种可以改变图像中物体材料属性的扩散模型。

使用 torch 进行去噪扩散

De-noising Diffusion with torch

目前,在生成式深度学习中,似乎没有其他方法能胜过扩散模型系列。 你想亲自尝试一下吗? 如果是这样,我们的去噪扩散的 torch 实现提供了一个易于使用、易于配置的界面。

知道风向

Knowing Which Way the Wind Flows

纽约西点军校美国军事学院学员和教师的研究表明,可以使用淹没在水中的目标区域的比例模型来测量分散在城市环境中的化学制剂的速度和浓度。其结果与在实际地点进行的类似测试(例如 2003 年在俄克拉荷马城进行的联合城市实验)相比毫不逊色。几十年来,水通道一直被用来模拟低风速下障碍物周围的气流。如今广泛使用的许多计算机模型都已使用从水道实验中收集的数据进行了验证。城市环境的小规模水道实验显示了化学和生物威胁的传输和扩散模型的重要结果。

知道风向

Knowing Which Way the Wind Flows

城市环境中的小规模水道实验为化学和生物威胁的运输和扩散模型提供了重要结果。美国军事学院纽约西点军校学员和教职员工的研究表明,可以使用浸没在水中的目标区域的比例模型来测量和预测化学药剂在城市环境中的扩散速度和浓度。结果与在实际地点进行的类似测试相比更为有利,例如在俄克拉荷马城进行的联合城市 2003 实验。几十年来,人们一直使用水道来模拟低风速下障碍物周围的气流。如今广泛使用的许多计算机模型都是使用从水道实验中收集的数据进行验证的。