扩散模型关键词检索结果

Pytorch 中从头开始的扩散模型

Diffusion Model from Scratch in Pytorch

去噪扩散概率模型 (DDPM) 的实现 MNIST 上的 DDPM 示例 — 作者提供的图片简介一般来说,扩散模型是一种生成式深度学习模型,它从学习到的去噪过程中创建数据。扩散模型有很多种,最流行的通常是文本条件模型,它可以根据提示生成特定的图像。一些扩散模型 (Control-Net) 甚至可以将图像与某些艺术风格融合在一起。下面是一个例子:作者使用经过微调的 MonsterLabs 的 QR Monster V2 提供的图片如果您不知道这幅图像有什么特别之处,请尝试远离屏幕或眯起眼睛来查看图像中隐藏的秘密。扩散模型有许多不同的应用和类型,但在本教程中,我们将构建基础的无条件扩散模型 DDP

In-Paint3D:使用无闪电扩散模型生成图像

In-Paint3D: Image Generation using Lightning Less Diffusion Models

深度生成 AI 模型的出现大大加速了 AI 的发展,在自然语言生成、3D 生成、图像生成和语音合成方面具有非凡的能力。3D 生成模型已经改变了众多行业和应用,彻底改变了当前的 3D 生产格局。然而,许多当前的深度生成模型遇到了一个共同的障碍:复杂的布线 […]文章 In-Paint3D:使用无闪电扩散模型生成图像首先出现在 Unite.AI 上。

受控扩散模型可以改变图像中的材料属性

Controlled diffusion model can change material properties in images

“炼金术士”系统调整图像中特定对象的材料属性,从而潜在地修改视频游戏模型以适应不同的环境、微调 VFX 并使机器人训练多样化。

使用强化学习训练扩散模型

Training Diffusion Models with Reinforcement Learning

使用强化学习训练扩散模型replay扩散模型最近已成为生成复杂高维输出的事实标准。您可能知道它们能够制作令人惊叹的 AI 艺术和超逼真的合成图像,但它们也在药物设计和连续控制等其他应用中取得了成功。扩散模型背后的关键思想是将随机噪声迭代地转换为样本,例如图像或蛋白质结构。这通常被激发为最大似然估计问题,其中模型被训练以生成尽可能接近训练数据的样本。然而,扩散模型的大多数用例并不直接与匹配训练数据有关,而是与下游目标有关。我们不只是想要一张看起来像现有图像的图像,而是一张具有特定外观的图像;我们不只是想要一个物理上合理的药物分子,而是想要一个尽可能有效的药物分子。在这篇文章中,我们展示了如何使用

扩散模型的工作原理:从头开始的数学

How diffusion models work: the math from scratch

深入研究扩散模型的数学和直觉。了解扩散过程是如何制定的,我们如何引导扩散,稳定扩散背后的主要原理,以及它们与基于分数的模型的联系。

新网络研讨会 - “人工智能和多媒体:使用生成式人工智能处理图像、视频和音频”

New Webinar - "AI and Multimedia: Using Generative AI for Images, Video, and Audio"

人工智能和多媒体:将生成式人工智能用于图像、视频和音频Nicole Hennig 主持的人工智能网络研讨会概述:在多媒体生成式人工智能工具之旅中,您将了解底层技术 – 如何仅通过文本输入创建图像、视频、音乐和语音?您将了解各种类型的可用工具及其功能。您将看到这些工具可以生成的许多示例。接下来我们将讨论与版权、偏见和深度伪造问题相关的道德问题。我们将学习如何以避免偏见的方式提示图像生成。我们还将展示以创造性和有益的方式使用这些工具的艺术家的示例。您将了解如何使用 genAI 创作艺术品是一个复杂得多的过程,而不仅仅是输入提示并接受第一个输出。我们会听到残疾艺术家的意见,他们发现当他们无法再使用物

GPU 的终结?光学人工智能接管

The End of GPUs? Optical AI takes over

加州大学洛杉矶分校的研究人员开发了光学生成模型——利用光而不是传统电子计算来创建图像的人工智能技术。这项创新提供了高速、节能的图像生成,其质量可与数字扩散模型相媲美。

条件扩散中组合泛化的局部机制

Local Mechanisms of Compositional Generalization in Conditional Diffusion

条件扩散模型似乎能够进行成分泛化,即为调节器的分布外组合生成令人信服的样本,但这种能力背后的机制仍不清楚。为了使这一点具体化,我们研究了长度泛化,即生成具有比训练期间看到的更多对象的图像的能力。在受控的 CLEVR 设置中(Johnson 等人,2017),我们发现在某些情况下可以实现长度泛化,但在其他情况下则不能,这表明模型有时只能学习底层的组成结构。然后我们调查......

科学家揭露了在光线下运行的AI,而不是渴望耗电的筹码

Scientists Unveil AI That Runs on Light, Not Power-Hungry Chips

在发现相等的科幻小说和环境突破的发现中,加州大学洛杉矶分校的研究人员设计了一个AI图像发生器,该生成器用光而不是电力解码。他们的系统在流行力学中描述,使用激光和空间光调节器立即产生图像,同时减少了传统扩散模型的重量需求。这很重要,因为AI的碳足迹并不小。 Openai曾经透露,在今年早些时候的一周中,用户产生了超过7亿张图像,引发了有关可持续性作为收养飞机的疑问。通过避开大部分数字咕unt作品,光学AI可以提供[…]

5个免费的AI课程,可以拥抱脸

5 Free AI Courses from Hugging Face

动手,在LLM,AI代理,MCP,扩散模型和强化学习的社区驱动课程。

屏蔽扩散:使用稀疏驱除态生成新颖和多样的图像

Shielded Diffusion: Generating Novel and Diverse Images using Sparse Repellency

扩散模型正在生成越来越现实的图像。但是,当用相同提示反复反复发电图像时,从业人员通常会获得相同的,极为怀疑的模式的轻微变化。结果,大多数模型无法重新折断数据中固有的多样性,这阻碍了它们与CreativEtasks或为世界模型提供动力的能力。这项工作提出了一种非常有效的和一般的方法,可以将生成的图像从一组参考图像组中驱逐出去。这是通过在散布中引入数据驱动的驱除术语来实现的。

目标混凝土分数匹配:离散扩散的整体框架

Target Concrete Score Matching: A Holistic Framework for Discrete Diffusion

离散扩散是建模和生成离散数据的有前途的框架。在这项工作中,我们提出了目标混凝土评分匹配(TCSM),这是一个新颖而多功能的目标,用于训练和微调离散扩散模型。 TCSM提供了一个具有广泛适用性的一般框架。它直接从数据样本中支持训练前离散扩散模型,许多现有的离散扩散方法自然出现为我们更一般的TCSM框架的特殊情况。此外,相同的TCSM目标扩展到离散扩散模型的训练后,包括…

麻省理工区研究:使用生成AI帮助机器人跳高并降落更好

MIT research: Using generative AI to help robots jump higher and land better

由Alex Shipps,数字策略协调员,MIT计算机科学与人工智能实验室扩散模型(如Openai的Dall-E)在帮助集思广益的新设计方面变得越来越有用。人类可以促使这些系统生成图像,创建视频或完善蓝图,并回来他们以前从未考虑过的想法。但是你[…]

带有显式3D建模的世界一致的视频扩散

World-Consistent Video Diffusion With Explicit 3D Modeling

作为主导视觉内容生成的扩散模型,已经努力使这些模型适应多视图图像生成以创建3D内容。传统上,这些方法通过仅产生RGB框架来隐式学习3D一致性,这可以导致培训中的工件和效率低下。相比之下,我们建议在RGB框架并肩生成归一化坐标空间(NCS)框架。 NCS框架捕获每个像素的全局坐标,为3D一致性提供了强大的像素对应关系和明确的监督。另外,通过共同估计RGB和NCS框架…

混合AI模型Causvid在几秒钟内创建高质量的视频

Hybrid AI-modell CausVid skapar högkvalitativa videor på sekunder

CAUSVID是由麻省理工学院计算机科学和人工智能研究实验室(CSAIL)与Adobe Research合作开发的混合AI模型。这种创新的工具可以在短短几秒钟内创建高质量的视频,这代表了视频制作及其应用方面的重大进展。 Causvid结合了来自两种不同类型模型的元素:高性能扩散模型[…] Post Hybrid AI模型Causvid Causvid在AI新闻中首次出现在几秒钟​​内创建高质量的视频。

混合动力AI模型在几秒钟内制作流畅,高质量的视频

Hybrid AI model crafts smooth, high-quality videos in seconds

CAUSVID生成的AI工具使用扩散模型来教授自回归(逐帧)系统,以迅速生成稳定的高分辨率视频。

无分类器指导是一个预测器 - 校准

Classifier-Free Guidance is a Predictor-Corrector

我们研究了无分类器指导(CFG)的理论基础。 CFG是文本对图像扩散模型的条件采样的主要方法,但与扩散的其他方面不同,它仍然保持在摇摇欲坠的理论基础上。在本文中,我们通过证明CFG与DDPM(Ho等,2020)和DDIM(Song等,2021)的相互作用来反驳共同的误解,并且CFG都不会产生gamma驱动的分布P(x | c)^γp(x)^γp(x)^{1- = {1-γ}。然后,我们通过证明它是一种预测器 - 矫正器方法来阐明CFG的行为(Song等,2020)…

逐步扩散:基本教程

Step-by-Step Diffusion: An Elementary Tutorial

我们提供了一门关于扩散模型数学和机器学习流程匹配的可访问的第一门课程。我们的目标是尽可能简单地教授扩散,以最少的数学和机器学习先决条件,但足够的技术细节来理解其正确性。与大多数有关该主题的教程不同,我们既不采用变异自动编码器(VAE),也不采用随机微分方程(SDE)方法。实际上,对于核心思想,我们将不需要任何SDE,基于证据的降低器(ELBOS),Langevin Dynamics,甚至分数的概念。读者只需要…