Controlled diffusion model can change material properties in images
“炼金术士”系统调整图像中特定对象的材料属性,从而潜在地修改视频游戏模型以适应不同的环境、微调 VFX 并使机器人训练多样化。
Training Diffusion Models with Reinforcement Learning
使用强化学习训练扩散模型replay扩散模型最近已成为生成复杂高维输出的事实标准。您可能知道它们能够制作令人惊叹的 AI 艺术和超逼真的合成图像,但它们也在药物设计和连续控制等其他应用中取得了成功。扩散模型背后的关键思想是将随机噪声迭代地转换为样本,例如图像或蛋白质结构。这通常被激发为最大似然估计问题,其中模型被训练以生成尽可能接近训练数据的样本。然而,扩散模型的大多数用例并不直接与匹配训练数据有关,而是与下游目标有关。我们不只是想要一张看起来像现有图像的图像,而是一张具有特定外观的图像;我们不只是想要一个物理上合理的药物分子,而是想要一个尽可能有效的药物分子。在这篇文章中,我们展示了如何使用
How diffusion models work: the math from scratch
深入研究扩散模型的数学和直觉。了解扩散过程是如何制定的,我们如何引导扩散,稳定扩散背后的主要原理,以及它们与基于分数的模型的联系。
Target Concrete Score Matching: A Holistic Framework for Discrete Diffusion
离散扩散是建模和生成离散数据的有前途的框架。在这项工作中,我们提出了目标混凝土评分匹配(TCSM),这是一个新颖而多功能的目标,用于训练和微调离散扩散模型。 TCSM提供了一个具有广泛适用性的一般框架。它直接从数据样本中支持训练前离散扩散模型,许多现有的离散扩散方法自然出现为我们更一般的TCSM框架的特殊情况。此外,相同的TCSM目标扩展到离散扩散模型的训练后,包括…
Shielded Diffusion: Generating Novel and Diverse Images using Sparse Repellency
扩散模型正在生成越来越现实的图像。但是,当用相同提示反复反复发电图像时,从业人员通常会获得相同的,极为怀疑的模式的轻微变化。结果,大多数模型无法重新折断数据中固有的多样性,这阻碍了它们与CreativEtasks或为世界模型提供动力的能力。这项工作提出了一种非常有效的和一般的方法,可以将生成的图像从一组参考图像组中驱逐出去。这是通过在散布中引入数据驱动的驱除术语来实现的。
MIT research: Using generative AI to help robots jump higher and land better
由Alex Shipps,数字策略协调员,MIT计算机科学与人工智能实验室扩散模型(如Openai的Dall-E)在帮助集思广益的新设计方面变得越来越有用。人类可以促使这些系统生成图像,创建视频或完善蓝图,并回来他们以前从未考虑过的想法。但是你[…]
World-Consistent Video Diffusion With Explicit 3D Modeling
作为主导视觉内容生成的扩散模型,已经努力使这些模型适应多视图图像生成以创建3D内容。传统上,这些方法通过仅产生RGB框架来隐式学习3D一致性,这可以导致培训中的工件和效率低下。相比之下,我们建议在RGB框架并肩生成归一化坐标空间(NCS)框架。 NCS框架捕获每个像素的全局坐标,为3D一致性提供了强大的像素对应关系和明确的监督。另外,通过共同估计RGB和NCS框架…
Hybrid AI-modell CausVid skapar högkvalitativa videor på sekunder
CAUSVID是由麻省理工学院计算机科学和人工智能研究实验室(CSAIL)与Adobe Research合作开发的混合AI模型。这种创新的工具可以在短短几秒钟内创建高质量的视频,这代表了视频制作及其应用方面的重大进展。 Causvid结合了来自两种不同类型模型的元素:高性能扩散模型[…] Post Hybrid AI模型Causvid Causvid在AI新闻中首次出现在几秒钟内创建高质量的视频。
Hybrid AI model crafts smooth, high-quality videos in seconds
CAUSVID生成的AI工具使用扩散模型来教授自回归(逐帧)系统,以迅速生成稳定的高分辨率视频。
Classifier-Free Guidance is a Predictor-Corrector
我们研究了无分类器指导(CFG)的理论基础。 CFG是文本对图像扩散模型的条件采样的主要方法,但与扩散的其他方面不同,它仍然保持在摇摇欲坠的理论基础上。在本文中,我们通过证明CFG与DDPM(Ho等,2020)和DDIM(Song等,2021)的相互作用来反驳共同的误解,并且CFG都不会产生gamma驱动的分布P(x | c)^γp(x)^γp(x)^{1- = {1-γ}。然后,我们通过证明它是一种预测器 - 矫正器方法来阐明CFG的行为(Song等,2020)…
Step-by-Step Diffusion: An Elementary Tutorial
我们提供了一门关于扩散模型数学和机器学习流程匹配的可访问的第一门课程。我们的目标是尽可能简单地教授扩散,以最少的数学和机器学习先决条件,但足够的技术细节来理解其正确性。与大多数有关该主题的教程不同,我们既不采用变异自动编码器(VAE),也不采用随机微分方程(SDE)方法。实际上,对于核心思想,我们将不需要任何SDE,基于证据的降低器(ELBOS),Langevin Dynamics,甚至分数的概念。读者只需要…
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation
扩散模型已成为视觉产生的主要方法。他们是通过deno培训的马尔可夫工艺,该过程逐渐为输入增加了噪音。我们认为,马尔可夫的财产限制了该模型充分利用生成轨迹的能力,从而导致训练和推理期间效率低下。在本文中,我们提出了DART,这是一种基于变压器的模型,该模型统一自回归(AR)和非马克维亚框架内的扩散。飞镖迭代地将图像贴片在空间和光谱上使用与标准相同的架构相同的AR模型
Scaling Diffusion Language Models via Adaptation from Autoregressive Models
扩散语言模型(DLM)已成为文本生成建模的有希望的新范式,有可能解决自回归(AR)模型的局限性。但是,与AR同行相比,当前的DLM的规模较小,并且缺乏对语言建模基准测试的公平比较。此外,从头开始的训练扩散模型仍然具有挑战性。鉴于开源AR语言模型的流行率,我们建议适应这些模型来构建文本扩散模型。我们演示了AR和扩散建模目标之间的联系以及…
Dream 7B Diffusion – Den mest kraftfulla öppna diffusionsspråkmodellen hittills
香港大学(HKU)与华为Noah的Ark La合作,正式推出了Dream 7B。通过此发布,我们已经基于迄今为止的扩散模型收到了最强大的开放语言模型,这有望彻底改变我们将AI用于文本处理,计划和编码的方式。什么是梦7b? Dream 7b是[…] Post Dream 7b扩散的一种新型 - 迄今为止最强大的开放扩散模型首先吸引了AI新闻。
Scaling Up Reinforcement Learning for Traffic Smoothing: A 100-AV Highway Deployment
通过增强学习的培训扩散模型我们部署了100辆加固学习(RL)控制的汽车,进入高速公路的高速公路交通,以使拥挤并减少每个人的燃油消耗。我们的目标是应对“停下来”的波浪,那些令人沮丧的放缓和速度通常没有明确原因,但导致拥挤和大量的能源浪费。为了培训有效的流动式光滑控制器,我们建立了快速,数据驱动的模拟,该模拟与RL代理相互作用,学习以最大程度地提高能源效率,同时保持吞吐量并安全地围绕人驾驶员进行安全操作。总体而言,一小部分控制的自动驾驶汽车(AV)足以显着提高道路上所有驾驶员的交通流量和燃油效率。此外,训练有素的控制器旨在在大多数现代车辆上部署,以分散的方式运行并依靠标准的雷达传感器。在我们的最新
HART kan generera högkvalitativa bilder upp till nio gånger snabbare
马萨诸塞州理工学院(MIT)和NVIDIA共同开发了AI工具Hart(Hybrid自动回旋变压器),该工具彻底改变了图像生成区域。使用独特的混合方法结合了自回归模型和扩散模型,Hard设定了基于AI的图像生产中质量,速度和资源效率的新标准。什么是哈特,为什么这么特别? Hart基于[…] Post Hart可以生成高质量的图像,最高九次,首次出现在AI新闻中。
The Future of RAG-Augmented Image Generation
生成扩散模型(如稳定扩散、通量)和视频模型(如浑元)依赖于使用固定数据集在单个资源密集型训练会话中获得的知识。在此训练之后引入的任何概念(称为知识截止)都不存在于模型中,除非通过微调或外部适应技术(如 […])进行补充。文章《RAG 增强图像生成的未来》首先出现在 Unite.AI 上。