受控扩散模型可以改变图像中的材料属性

“炼金术士”系统调整图像中特定对象的材料属性,从而潜在地修改视频游戏模型以适应不同的环境、微调 VFX 并使机器人训练多样化。

来源:MIT新闻 - 人工智能

麻省理工学院计算机科学与人工智能实验室 (CSAIL) 和谷歌研究院的研究人员可能刚刚施展了数字魔法——以扩散模型的形式,可以改变图像中物体的材料属性。该系统被称为 Alchemist,允许用户改变真实和人工智能生成的图片的四个属性:粗糙度、金属度、反照率(物体的初始基色)和透明度。作为图像到图像的扩散模型,可以输入任何照片,然后在 -1 到 1 的连续范围内调整每个属性以创建新的视觉效果。这些照片编辑功能可能会扩展到改进视频游戏中的模型,扩展人工智能在视觉效果方面的能力,并丰富机器人训练数据。

炼金术士

Alchemist 背后的魔力始于去噪扩散模型:在实践中,研究人员使用了 Stable Diffusion 1.5,这是一个文本到图像的模型,因其逼真的效果和编辑功能而备受赞誉。之前的研究基于流行的模型,使用户能够进行更高级别的更改,例如交换对象或改变图像的深度。相比之下,CSAIL 和 Google Research 的方法将此模型应用于关注低级属性,使用独特的滑块界面修改对象材料属性的更精细细节,其性能优于其他同类产品。虽然之前的扩散系统可以从帽子里变出一只兔子来制作图像,但 Alchemist 可以将同一只动物变成半透明的。该系统还可以使橡皮鸭呈现出金属质感,去除金鱼的金色色调,并使旧鞋擦亮。Photoshop 等程序具有类似的功能,但此模型可以更直接地更改材料属性。例如,在广泛使用的应用程序中,修改照片的金属外观需要几个步骤。

精确控制

精确控制

使用合成数据保持真实

使用合成数据保持真实 物质化