5 分钟内解释 DALL·E

似乎每隔几个月,就会有人发表一篇让我大吃一惊的机器学习论文或演示。本月,OpenAI 的新图像生成模型 DALL·E 面世。这个庞大的 120 亿参数神经网络采用文本标题(即“鳄梨形状的扶手椅”)并生成与之匹配的图像:来自 https://openai.com/blog/dall-e/。我认为它的图片非常鼓舞人心(我会买一把鳄梨椅),但更令人印象深刻的是 DALL·E 理解和呈现空间、时间甚至逻辑概念的能力(稍后会详细介绍)。在这篇文章中,我将简要概述 DALL·E 的功能、工作原理、它如何适应 ML 的最新趋势以及它为何如此重要。我们开始吧!DALL·E 是什么?它能做什么?7 月,DALL·E 的创造者 OpenAI 公司发布了一个同样庞大的模型 GPT-3,该模型以其生成类似人类的文本的能力震惊了世界,包括专栏文章、诗歌、十四行诗,甚至计算机代码。DALL·E 是 GPT-3 的自然延伸,它可以解析文本提示,然后用图片而不是文字做出回应。例如,在 OpenAI 博客的一个示例中,该模型根据提示“客厅里有两把白色扶手椅和一幅罗马斗兽场的画作。这幅画挂在一个现代壁炉上方”渲染图像:来自 https://openai.com/blog/dall-e/。非常巧妙,对吧?您可能已经看到这对设计师有多大用处。请注意,DALL·E 可以生成大量图像

来源:Dale on AI

似乎每隔几个月,就会有人发表一篇让我大吃一惊的机器学习论文或演示。本月,是 OpenAI 的新图像生成模型 DALL·E。

DALL·E

这个庞大的 120 亿参数神经网络采用文本标题(即“鳄梨形状的扶手椅”)并生成与之匹配的图像:

来自 https://openai.com/blog/dall-e/。

来自 https://openai.com/blog/dall-e/。

我认为它的图片非常鼓舞人心(我会买一把鳄梨椅),但更令人印象深刻的是 DALL·E 理解和呈现空间、时间甚至逻辑概念的能力(稍后会详细介绍)。

在这篇文章中,我将简要介绍 DALL·E 的功能、工作原理、与机器学习的最新趋势的契合度以及其重要性。我们开始吧!

什么是 DALL·E,它能做什么?

7 月,DALL·E 的创造者 OpenAI 公司发布了一个类似的大型模型 GPT-3,该模型以其生成类似人类的文本的能力震惊了世界,包括专栏文章、诗歌、十四行诗,甚至计算机代码。DALL·E 是 GPT-3 的自然延伸,它可以解析文本提示,然后以图片而不是文字进行响应。例如,在 OpenAI 博客的一个示例中,该模型根据提示渲染图像“客厅里有两把白色扶手椅和一幅罗马斗兽场的画作。这幅画被挂在现代壁炉上方”:

它能够生成类似人类的文本

来自 https://openai.com/blog/dall-e/。

来自 https://openai.com/blog/dall-e/。

非常巧妙,对吧?您可能已经看到这对设计师有多大用处。请注意,DALL·E 可以根据提示生成大量图像。然后,第二个 OpenAI 模型(称为 CLIP)对这些图片进行排序,该模型尝试确定哪些图片匹配度最高。

CLIP

DALL·E 是如何构建的?

Transformer Google 搜索 预测蛋白质的结构 网络爬虫

DALL·E 有多“智能”?

为了证明 DALL·E 不仅仅是复述图像,OpenAI 的作者强迫它呈现一些非常不寻常的提示: