企业正在寻求使用主流基础架构来满足其计算需求,但是培训最先进的模型需要大量的计算能力。对于LLM型号,八个L40S在主流服务器中的培训表现为NVIDIA HGX™A100 8-GPU系统的训练性能,使Enterprises通过传统的基础架构快速解决解决方案。与推理的A100 80GB SXM相比,L40S使用stablediffusion提供了高达1.2倍的生成AI推理性能,并且在流行网络上(例如MLPerf Benchmark中包含的网络)提供了高达1.5倍的推理性能。
在过去的十年半的人工智能和学习中的一半中,一个关键的进步是开发从较低级别的原始输入特征(例如图像像素强度和单词性)[1,2,2,2,3,4,5,6,7]中学习更高级别的方法。这些较高级别表示的关键优势是它们捕获了更少的变量的富裕语义,因此,在其中,我们可以在其中学习统计上有效的模型,用于各种下游任务,例如预测,分类和聚类。近年来的关键进步是学习这些表示形式,而不是使用传统的手工制作的效果,这些效率很难正确,正确地指定。这导致了著名的应用程序,例如Dall-E,Stablediffusion,Chatgpt和Audiolm等。
扩散模型在图像生成中表现出了前所未有的ca。然而,它们从原始训练集中纳入并扩大了数据偏差(例如性别,年龄),从而限制了产生的IMEG的多样性。在本文中,我们在基于图像集的重新函数的指导下,使用增强学习(RL)提出了一种面向多样性的细调方法(RL)。具体而言,所提出的奖励函数(表示为多样性奖励),利用一组生成的信息来评估当前生成分配W.R.T.的覆盖范围。参考分布,由一组无偏见的图像表示。建立在分布差异估计的概率方法的基础上,差异奖励可以有效地用一小部分图像来测量相对分布差距。我们进一步将扩散过程作为多步决策问题(MDP),并通过最大化多样性奖励来应用策略梯度方法来微调扩散模型。在放样后选择任务上验证了奖励,其中根据多样性奖励值选择了最多样化的图像的子集。我们还展示了我们的RL微调框架的有效性,可以通过不同类型的扩散模型(包括班级条件模型和文本条件模型,例如stablediffusion)增强图像生成的多样性。
大公司也参与其中;2023 年 12 月,谷歌宣布了其 Gemini 模型系列,其中包括迄今为止最大的模型 Gemini Ultra,以及 Gemini Nano,后者是通过从 Ultra 进行蒸馏学习训练的版本,可在某些 Pixel 智能手机上运行。苹果为其 Apple Silicon SoC 上的 AI 项目开源了 MLX 框架。这里还值得一提的是,Stability AI 标志性的 Stable Diffusion 图像生成器是缩小生成式 AI 的先驱——该模型需要 5GB 的 GPU RAM 才能运行,因此可以安装在任何 Apple Silicon Mac 上,而高通已经演示了它在智能手机上的运行。12 月,Stability 创始人 Emad Mostaque 在他的 X feed 上预测,一个开源项目将在 2024 年的某个时候在边缘计算平台上匹敌或超越 GPT-4。2024 年 1 月,Stability AI 推出了 StableLM 2,这是一个只有 16 亿个参数的语言模型——比最初的 StableDiffusion 略大。
生成式人工智能 (gen-AI) 的最新进展使得只需单击一下即可生成照片般逼真且具有艺术灵感的照片,满足数百万在线用户的需求。要探索人们如何使用 DALLE 和 StableDiffusion 等 gen-AI 模型,了解 AI 生成的照片中的主题、内容和变化至关重要。在这项工作中,我们介绍了 TWIGMA(带有 MetadatA 的 TWItter Generative-ai 图像),这是一个全面的数据集,涵盖了 2021 年 1 月至 2023 年 3 月在 Twitter 上收集的 800,000 多张 gen-AI 图像,以及相关元数据(例如推文文本、创建日期、点赞数),可在 https://zenodo.org/records/8031785 上找到。通过将 TWIGMA 与自然图像和人类艺术作品进行比较分析,我们发现与非 gen-AI 图像相比,gen-AI 图像具有独特的特征,并且平均而言表现出较低的可变性。此外,我们发现 gen-AI 图像与自然图像之间的相似性与点赞数量呈反比。最后,我们观察到 Twitter 上 AI 生成图像的主题发生了纵向变化,用户越来越多地分享艺术上复杂的内容,例如复杂的人类肖像,而他们对自然场景和动物等简单主题的兴趣有所下降。我们的研究结果强调了 TWIGMA 作为研究 AI 生成图像的独特数据资源的重要性。