批判性审视 AI 图像生成

图像生成 AI 究竟能告诉我们关于这个世界的什么信息?照片由 Math 在 Unsplash 上拍摄我最近有机会对一个有趣的项目进行分析,而我要说的太多了,无法在一篇文章中全部涵盖,所以今天我将讨论我对它的更多想法。研究人员在这个项目中采用的方法是向不同的生成 AI 图像生成工具提供一系列提示:Stable Diffusion、Midjourney、YandexART 和 ERNIE-ViLG(由百度提供)。这些提示特别针对不同的世代——婴儿潮一代、X 世代、千禧一代和 Z 世代,并要求在不同背景下拍摄这些群体的图像,例如“与家人在一起”、“度假”或“在工作”。虽然结果非常有趣,也许揭示了一些关于视觉表现的见解,但我认为我们也应该注意这不能告诉我们什么,或者有什么局限性。我将把讨论分为美学(图片看起来是什么样的)和表现(图片中实际显示的内容),并稍微讨论一下这些图片是如何产生的,因为这对这两个主题都非常重要。简介在我开始之前,先快速概述一下这些图像生成器模型。它们是通过获取大量图像数据集(照片、艺术品等)并配以简短的文本描述而创建的,目标是让模型学习单词与图像外观之间的关系

来源:走向数据科学

对AI图像生成的批判性看

图像生成的AI真正告诉我们有关我们的世界的信息?

数学 Unplash

我最近有机会对一个有趣的项目进行分析,而且我要说的要比那个单一的作品中包含更多,所以今天我将讨论更多关于它的想法。

一个有趣的项目

研究人员采用该项目采取的方法涉及为不同的生成AI图像生成工具提供一系列提示:稳定扩散,Midjourney,Yandexart和Ernie-Vi​​lg(由Baidu)。这些提示特别构成了不同世代的框架 - 婴儿潮一代,X世代,千禧一代和Z世代,并在不同的情况下要求这些群体的图像,例如“与家人”,“度假”或“在工作中”。

虽然结果非常有趣,并且也许揭示了有关视觉表示的一些见解,但我认为我们还应该注意这无法告诉我们的内容或限制是什么。我将讨论将我的讨论分为美学(图片的外观)和表示形式(图片中实际显示的内容),其中有一些侧面曲目涉及这些图像的存在方式,因为这对这两个主题都非常重要。

简介

不过,在我开始之前,对这些图像生成器模型进行了快速概述。它们是通过将巨型图像数据集(照片,艺术品等)与简短的文本描述配对来创建的,目标是让模型学习单词和图像的外观之间的关系,以便在给出单词时,模型可以创建一个或多或少匹配的图像。引擎盖下有更多细节,并且模型(与其他生成A​​I一样)具有内置的随机性,可以带来变化和惊喜。

培训数据

https://laion.ai/

那么,当您使用这些模型之一时,您会真正得到什么?

美学

超过图像的视觉吸引力/风格,其中实际上是什么?

表示

限制