5 分钟内解释 DALL·E XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

5 分钟内解释 DALL·E

2021年1月6日 18:50 33 Comments

似乎每隔几个月，就会有人发表一篇让我大吃一惊的机器学习论文或演示。本月，OpenAI 的新图像生成模型 DALL·E 面世。这个庞大的 120 亿参数神经网络采用文本标题（即“鳄梨形状的扶手椅”）并生成与之匹配的图像：来自 https://openai.com/blog/dall-e/。我认为它的图片非常鼓舞人心（我会买一把鳄梨椅），但更令人印象深刻的是 DALL·E 理解和呈现空间、时间甚至逻辑概念的能力（稍后会详细介绍）。在这篇文章中，我将简要概述 DALL·E 的功能、工作原理、它如何适应 ML 的最新趋势以及它为何如此重要。我们开始吧！DALL·E 是什么？它能做什么？7 月，DALL·E 的创造者 OpenAI 公司发布了一个同样庞大的模型 GPT-3，该模型以其生成类似人类的文本的能力震惊了世界，包括专栏文章、诗歌、十四行诗，甚至计算机代码。DALL·E 是 GPT-3 的自然延伸，它可以解析文本提示，然后用图片而不是文字做出回应。例如，在 OpenAI 博客的一个示例中，该模型根据提示“客厅里有两把白色扶手椅和一幅罗马斗兽场的画作。这幅画挂在一个现代壁炉上方”渲染图像：来自 https://openai.com/blog/dall-e/。非常巧妙，对吧？您可能已经看到这对设计师有多大用处。请注意，DALL·E 可以生成大量图像

来源:Dale on AI

似乎每隔几个月，就会有人发表一篇让我大吃一惊的机器学习论文或演示。本月，是 OpenAI 的新图像生成模型 DALL·E。

DALL·E

这个庞大的 120 亿参数神经网络采用文本标题（即“鳄梨形状的扶手椅”）并生成与之匹配的图像：

来自 https://openai.com/blog/dall-e/。

来自 https://openai.com/blog/dall-e/。

我认为它的图片非常鼓舞人心（我会买一把鳄梨椅），但更令人印象深刻的是 DALL·E 理解和呈现空间、时间甚至逻辑概念的能力（稍后会详细介绍）。

在这篇文章中，我将简要介绍 DALL·E 的功能、工作原理、与机器学习的最新趋势的契合度以及其重要性。我们开始吧！

什么是 DALL·E，它能做什么？

7 月，DALL·E 的创造者 OpenAI 公司发布了一个类似的大型模型 GPT-3，该模型以其生成类似人类的文本的能力震惊了世界，包括专栏文章、诗歌、十四行诗，甚至计算机代码。DALL·E 是 GPT-3 的自然延伸，它可以解析文本提示，然后以图片而不是文字进行响应。例如，在 OpenAI 博客的一个示例中，该模型根据提示渲染图像“客厅里有两把白色扶手椅和一幅罗马斗兽场的画作。这幅画被挂在现代壁炉上方”：

它能够生成类似人类的文本

来自 https://openai.com/blog/dall-e/。

来自 https://openai.com/blog/dall-e/。

非常巧妙，对吧？您可能已经看到这对设计师有多大用处。请注意，DALL·E 可以根据提示生成大量图像。然后，第二个 OpenAI 模型（称为 CLIP）对这些图片进行排序，该模型尝试确定哪些图片匹配度最高。

CLIP

DALL·E 是如何构建的？

Transformer Google 搜索预测蛋白质的结构网络爬虫

DALL·E 有多“智能”？

为了证明 DALL·E 不仅仅是复述图像，OpenAI 的作者强迫它呈现一些非常不寻常的提示：

图像 OpenAI 扶手椅生成 DALL blog com 模型类似文本图片 https 提示进行 dall 人类 openai