在没有监管护栏的情况下,图像生成人工智能 (AI) 工具的民主化放大了互联网上原有的危害。互联网上 AI 图像的出现始于生成对抗网络 (GAN),这是一种神经网络 1,包含 (1) 创建图像的生成器算法和 (2) 评估图像质量和/或准确性的鉴别器算法。通过生成器和鉴别器之间的几轮协作,最终生成 AI 图像 (Alqahtani、Kavakli-Thorne 和 Kumar,2021 年)。ThisPersonDoesNotExist.com 是由 Uber 工程师创建的网站,可生成逼真人物的 GAN 图像,于 2019 年 2 月推出,令观众惊叹不已 (Paez,2019 年),对广泛诈骗和社会工程等滥用领域的利用具有严重影响。这只是 AI 生成的图像及其在互联网上的利用的开始。随着时间的推移,AI 图像生成逐渐从 GAN 发展到扩散模型,这种模型可以生成比 GAN 更高质量、更多样的图像。扩散模型的工作原理是将高斯噪声 2 添加到原始训练数据图像中
摘要。近年来,人工intel-ligence生成的内容(AIGC)的迅速增长,随着文本对图像技术的发展,基于AI的图像生成已应用于各种领域。但是,与自然图像相比,AI生成的图像(AIGI)可能具有一些独特的扭曲,因此许多生成的图像对于现实世界应用没有资格。因此,研究AIGIS的主观和客观图像质量评估(IQA)方法很重要且重要。在本文中,为了更好地了解AIGI的人类视觉偏好,建立了AIGC的大规模IQA数据库,该数据库被称为AIGCIQA2023。我们首先使用100个提示,基于6个最先进的文本对图像生成模型生成2000多个图像。基于这些图像,进行了良好的主观实验,以从三个角度评估每个图像的人类视觉偏好,包括质量,真实性和对应关系。最后,基于这个大型数据库,我们进行了一个基准实验,以评估构造的数据库中几个最先进的IQA指标的表现。AIGCIQA2023数据库和基准将发布,以促进未来的研究https://github.com/wangjiarui153/aigciqa2023
•了解生成AI的基本概念和原理。•掌握与生成建模有关的核心机器学习概念。•解释各种生成模型(gan,vaes,扩散模型等)之间的差异。•使用流行框架(例如Tensorflow,Pytorch)实施和训练生成模型。•应用生成的AI技术来解决不同域中的问题(例如,图像生成,文本
个性化残差,用于概念驱动的文本对图像生成。Cusuh Ham,Matthew Fisher,James Hays,Nicholas Kolkin,Yuchen Liu,Richard Zhang,Tobias Hinz。 CVPR 2024Cusuh Ham,Matthew Fisher,James Hays,Nicholas Kolkin,Yuchen Liu,Richard Zhang,Tobias Hinz。CVPR 2024
扩散模型在图像生成中表现出了前所未有的ca。然而,它们从原始训练集中纳入并扩大了数据偏差(例如性别,年龄),从而限制了产生的IMEG的多样性。在本文中,我们在基于图像集的重新函数的指导下,使用增强学习(RL)提出了一种面向多样性的细调方法(RL)。具体而言,所提出的奖励函数(表示为多样性奖励),利用一组生成的信息来评估当前生成分配W.R.T.的覆盖范围。参考分布,由一组无偏见的图像表示。建立在分布差异估计的概率方法的基础上,差异奖励可以有效地用一小部分图像来测量相对分布差距。我们进一步将扩散过程作为多步决策问题(MDP),并通过最大化多样性奖励来应用策略梯度方法来微调扩散模型。在放样后选择任务上验证了奖励,其中根据多样性奖励值选择了最多样化的图像的子集。我们还展示了我们的RL微调框架的有效性,可以通过不同类型的扩散模型(包括班级条件模型和文本条件模型,例如stablediffusion)增强图像生成的多样性。
Lucidsim一次提供了所有三种解决方案。首先,我通过围绕Mujoco物理引擎构建并使用对象掩码和深度从模拟器构成和调节生成的图像来使数据实现和多样化。这确保了与场景几何形状的视觉一致性。为了减轻由于这种调节而导致的样本多样性的丧失,我通过从Chatgpt采购结构化图像提示来注入变化。第二,我通过一种新技术(DIM)提高了渲染速度,该技术通过机器人的摄像头姿势和场景几何形状计算得出的光流,将单个生成的图像扭曲为连续的帧。昏暗的使Lucidsim更快。最后,要生成policy数据,我们需要在封闭循环中运行图像生成,视觉策略在每个时间步骤中都会使用生成的图像。让Lucidsim“ Go Burrr”是关键,因此我开发了系统工具来分发轨迹采样,图像翘曲和跨80 + GPU的图像生成。Lucidsim的结果表明,闭环培训完全负责获得视觉政策以达到专家级的性能。
学习以场景图的形式从原始信息组成视觉关系是一项高度挑战的任务,这是由于上下文依赖性的,但是在依赖于场景所在的现场视觉应用程序中至关重要。但是,场景图生成(SGG)中没有当前的方法旨在为下流任务提供有用的图形。相反,主要重点主要是公开数据分布以预测更多细粒关系的任务。据说,所有的关系关系都不相同,至少其中一部分对现实世界应用没有用。在这项工作中,我们介绍了有效的SGG的任务,该任务旨在阐述相关关系的产生,从而促进了在下游任务(例如图像生成)中使用场景图的使用。为了支持进一步的方法,我们根据流行的Visual Genome数据集的注释提出了一个新的数据集,即VG150策划的新数据集。我们通过一组实验表明,该数据集包含比通常在SGG中使用的数据更高质量和多样的注释。最后,我们显示了从场景图1中生成图像生成的任务中该数据集的效率。
ChatGenie 是一个自主聊天机器人,它使用人工智能 (AI) 与用户交谈并生成图像。它利用 OpenAI 的 API 进行文本生成,利用 DALL-E API 进行图像生成。ChatGenie 还结合了 AI 检测来识别文本输入是由机器还是人类生成的。该聊天机器人旨在通过理解用户的查询并生成相关响应,为用户提供引人入胜且个性化的体验。ChatGenie 可以与用户就各种主题进行交谈,例如天气、新闻、娱乐和体育等。除了文本生成之外,ChatGenie 还可以使用 DALL-E 最先进的图像生成功能根据用户查询生成图像。这些图像是根据用户的输入量身定制的,可以根据上下文从现实到抽象。为了确保对话的真实性,ChatGenie 结合了 AI 检测来识别文本输入是由机器还是人类生成的。这有助于建立用户信任并确保聊天机器人在运行过程中透明。总体而言,ChatGenie 是一款创新的聊天机器人,它利用人工智能的强大功能生成文本和图像,从而提供独特的用户体验,同时确保交互的真实性和透明度。
图形结构的场景描述可以在生成模型中有效地使用,以控制生成的图像的组成。以前的方法基于图形卷积网络和对抗方法的组合,分别用于布局预测和图像生成。在这项工作中,我们展示了如何利用多头关注来编码图形信息,以及在潜在的图像生成中使用基于变压器的模型可以提高采样数据的质量,而无需在训练稳定性方面采用后续的对抗模型。所提出的方法,具体来说,完全基于用于将场景图编码为中间对象布局的变压器体系结构,并将这些布局解码为图像,通过矢量定量的变异自动编码器所学到的较低维空间。我们的方法在最新方法中显示出改进的图像质量,以及从同一场景图中的多代人之间的较高程度的多样性。我们在三个公共数据集上评估了我们的方法:视觉基因组,可可和CLEVR。我们在可可和视觉基因组上分别达到13.7和12.8的成立分数和52.3和60.3的FID。我们对我们的贡献进行消融研究,以评估每个组件的影响。代码可从https://github.com/perceivelab/trf-sg2im获得。
[1] Tingwei Zhang *,Rishi Jha *,Eugene Bagdasaryan和Vitaly Shmatikov。“多模式嵌入中的对抗性幻觉”。在:第33 USENIX安全研讨会(USENIX)。获得了杰出的纸张奖(占接受论文的5%)。2024年8月。[2] Rishi Jha *,Jonathan Hayase *和Sewoong Oh。“标签中毒就是您所需要的”。:第37届神经信息处理系统(神经)会议。2023年12月。[3] Dimitrios C. Gklezakos,Rishi Jha和Rajesh P.N.Rao。 “超宇宙策略近似:学习使用超核从单个图像生成动作”。 in:Neurovision 2022:CVPR研讨会(Neurovision @ cvpr)。 2022年6月。 [4] Rishi Jha和Kai Mihata。 “关于文本分类的大地距离和上下文嵌入压缩”。 在:关于自然语言处理方法的第十五个研讨会论文集(TextGraphs -15 @ NaAcl)。 2021年6月。Rao。“超宇宙策略近似:学习使用超核从单个图像生成动作”。in:Neurovision 2022:CVPR研讨会(Neurovision @ cvpr)。2022年6月。[4] Rishi Jha和Kai Mihata。“关于文本分类的大地距离和上下文嵌入压缩”。在:关于自然语言处理方法的第十五个研讨会论文集(TextGraphs -15 @ NaAcl)。2021年6月。