在微调T2I模型上进行对齐方式,但没有重新调整任何人类反馈。Dream-057 Sync背后的关键见解是利用视觉语言mod- 058 ELS(VLMS)的进步,该eLS(VLMS)可以识别生成的图像和用户的输入060文本之间的细粒度差异-059 CIE [7,20]。在高水平上直观地,我们的方法可以将061视为具有人为反馈(RLHF)的强化学习的可扩展版本;正如Llama2 [49] 063使用人类反馈进行了迭代精制一样,DreamSync 064使用VLMS的反馈改善了T2I模型,除了065,而无需加固学习。066给定了一组文本提示,T2i模型首发-067每个提示都有多个候选图像。DreamSync 068使用两个069 VLM自动评估这些生成的图像。第一个测量世代的忠诚070对文本[7,20],而第二个则测量美学071质量[23]。最佳世代被收集并使用072使用参数有效的lora 073 Finetuning [19]。使用新的FineTuned T2I模型,我们重新进行了多个迭代的整个过程:生成IM-075年龄,策划新的填充设置,然后再次进行Finetune。076我们使用最新的基准-077分和人类评估进行广泛的实验。我们使用两个T2I模型SDXL [37]和SD V1.4 [39]实验Dreamsync 078。两种模型的结果079都表明Dreamsync增强了Align-080
文本对图像(T2I)模型驱动了许多用例,例如在图像生成和编辑中以及场景理解。在此技术报告中,我们概述了Google Imagen家族中最新模型的培训和评估,Imagen3。在其默认配置下,Imagen 3以1024×1024分辨率生成图像,然后可以进行2×,4×或8×UPS采样。我们对其他最先进的T2I模型描述了我们的评估和分析。我们发现Imagen 3比其他模型更优选。特别是,它在光真相和遵守长而复杂的用户提示方面表现良好。部署T2i模型引入了许多新的挑战,我们详细描述了专注于了解与该模型家族相关的安全性和责任风险,以及我们为减少潜在危害的努力。
文本对图像(T2I)生成模型最近成为一种强大的工具,可以创建照片现实的图像并引起多种应用。然而,将T2i模型的有效整合到基本图像分类任务中仍然是一个悬而未决的问题。促进图像锁骨表现的一种普遍的策略是通过使用T2I模型生成的合成图像来增强训练集。在这项研究中,我们仔细检查了当前发电和常规数据增强技术的缺点。我们的分析表明,这些方法努力产生既忠实的(就前景对象)而且针对领域概念的多样化(在背景上下文中)。为了应对这一挑战,我们引入了一种创新的类数据增强方法,称为diff-mix 1,该方法通过在类之间执行图像翻译来丰富数据集。我们的经验结果是,DIFF-MIX在信仰和多样性之间取得了更好的平衡,从而导致各种图像分类场景之间的性能显着提高,包括域名数据集的少量,常规和长尾分类。
仅提示在图形,VR,电影和游戏等各个领域都有应用。尽管文本提示允许对生成的3D资产进行某种程度的控制,但通常很难准确地控制其身份,几何形状和外观,仅使用文本来控制其身份,几何形状和外观。尤其是这些方法缺乏生成特定受试者的3D资产的能力(例如,特定的狗而不是普通狗)。能够生成特定于3D的主题3D资产将显着减轻艺术家和3D获取的作品流量。在个性化特定于2D图像生成的受试者T2I模型中取得了显着的成功[13,21,38]。这些技术允许在不同上下文中生成特定主题图像,但它们不会生成3D资产或负担任何3D控制,例如观点变化。在这项工作中,我们提出了“ Dreambooth3d”,这是一种主题驱动的文本到3D代的方法。给定了几个(3-6)的图像捕获主题的图像(没有任何其他信息,例如相机姿势),我们生成了主题 - 特定的3D资产,这些资产也遵守输入文本提示中提供的上下文化。也就是说,我们可以生成具有给定主题的几何和外观身份的3D资产,同时也尊重变化(例如输入文本提示提供的睡眠或跳狗)。对于Dreambooth3d,我们从重点作品[33]中汲取灵感[33],该灵感使用T2I扩散模型得出的损失来优化NERF模型。我们观察到,简单地为给定主题个性化T2I模型,然后使用该模型来优化NERF,易于多种故障模式。一个关键问题是个性化的T2i模型往往会过度符合仅存在于稀疏主题图像中的相机观点。因此,从任意连续的角度来看,这种个性化T2I模型的结果损失不足以优化连贯的3D NERF资产。使用Dreambooth3D,我们提出了一个有效的优化方案,在该方案中,我们可以相互优化NERF资产和T2I模型,以共同使它们具有特定于主题。我们利用DreamFusion [33]进行NERF优化,并使用Dreambooth [38]进行T2I模型。特别是,我们提出了一个三阶段优化框架,在第一个阶段,我们部分地为Dreambooth模型进行了缩减,然后使用DreamFusion来选择NERF资产。部分填充的Dreambooth模型不会过分符合给定的主题视图,但也不会捕获所有特定于主题的细节。因此,结果NERF资产是3D相干的,但不是主体。在第二阶段,我们将Dreambooth模型完全填充,以捕获主题的细节并使用该模型来构建多视伪对象图像。也就是说,我们使用训练有素的Dreambooth模型将多视效果从训练有素的NERF转换为主题图像。在最终阶段,我们进一步优化了Dreambooth模型us-
虽然生成的AI系统在Di-Verse应用中广受欢迎,但它们产生有害产出的潜力限制了它们在不同应用中的可信度和可用性。近年来,人们对吸引多元化的AI用户参与可能影响其生活的生成AI的兴趣越来越大。为此,我们提出Mirage作为基于Web的工具,AI用户可以通过审核AI生成的图像来比较来自多个AI文本图像(T2I)模型的输出,并以结构化的方式报告其发现。我们使用Mirage对五个细节进行了初步的用户研究,发现Mirage用户可以利用自己的生活经验和身份来浮出水面,以在审查Multiple T2i模型的输出时围绕有害偏见浮出水面,与仅审查一个偏差。
T2i 团队利用转移性结直肠癌的临床前原位模型,证明了能够迁移到其他器官的肠道 T 淋巴细胞具有全身抗转移作用。这一发现随后在接受免疫疗法治疗的结直肠癌患者中得到验证。该团队正在继续这项工作,以确定预测免疫疗法反应的特征,并开发旨在增强这些肠道 T 淋巴细胞的抗癌疫苗。阅读文章该团队继续开展工作,展示了耗尽的 T 细胞作为免疫疗法临床反应预测因子的作用。阅读文章该团队目前正在参加两项临床试验,旨在评估 Transgene 开发的个性化癌症疫苗 TG4050。这些试验于 2021 年启动,涉及妇科和耳鼻喉癌症。欧洲首批受益于这种疫苗的非病毒诱发耳鼻喉癌症患者是 IUCT-Oncopole 患者。 T2i 团队与免疫监测平台联手监测 IUCT-Oncopole 的这两项创新的 1 期临床试验。了解更多信息 →
合成图像产生的进展使评估其质量至关重要。虽然已经提出了几种大会来评估图像的渲染,但对于基于提示的文本形象(T2I)模型至关重要,这些模型基于提示,以考虑其他范围,例如生成的图像与提示的重要内容相匹配。此外,尽管生成的图像通常是由随机起点引起的,但通常不考虑该图像的影响。在本文中,我们提出了一个基于提示模板的新指标,以研究提示中规定的内容与相应生成的图像之间的对齐。它使我们能够更好地以指定对象的类型,它们的数字和颜色来表征对齐方式。我们对最近的几个T2I模型进行了一项研究。我们通过方法获得的另一个有趣的结果是,图像质量可能会大大变化,这取决于用作图像种子的噪声。我们还量化了提示中概念数量的影响,它们的顺序以及其(颜色)属性的影响。最后,我们的方法使我们能够识别出比其他种子比其他种子更好的种子,从而开辟了有关该研究不足的主题的新研究方向。
生成文本编辑和可控制的角色视频对创建各种挖掘人的需求不大。尽管如此,此任务受到了没有配对视频置式字幕和视频生成的先前模型的全面数据集的限制。在这项工作中,我们设计了一种新颖的两阶段训练方案,该方案可以利用易于获得的数据集(即,姿势对和无姿势的视频)和预先训练的文本图像(T2I)模型来获得姿势控制的char- acter-acter Videos。具体来说,在第一阶段,仅姿势图对仅用于可控的文本对图像。我们学习一个零定位的卷积编码器来编码姿势信息。在第二阶段,我们通过添加可学习的时间自我注意力和改革的跨框架自我注意块,通过无姿势的视频数据集对上述网络的运动进行了很好的调整。由我们的新设计提供支持,我们的方法成功地生成了不断构成可控制的角色视频,同时将概念的生成和组成能力从预先训练的T2i模型中保留下来。代码和模型可在https:// last-your-pose.github.io/上找到。
由于高级AI系统(例如生成基础模型)表现出越来越丰富的行为,因此,对AI对齐和安全性研究的挑战是系统地以一种帮助我们理解和开发更安全的模型的方式来系统地表征这些行为。在实现这一目标的道路上的一个关键问题是,AI系统在概念上是否以人类的方式理解世界。一个经典的任务家族,用于探究人类和非人类动物的概念理解是相同的/不同的任务,它测试了对不同刺激中“相同”和“差异”的抽象概念的理解。从这些对人类和非人类动物的概念学习的研究中汲取灵感,我们提出了实验结果,以研究文本对图像(T2I)模型对相同/不同概念的理解。我们表明,尽管T2i模型对相同/不同概念的理解有所了解,但这种理解在相同性和差异的不同属性(例如纹理,颜色,旋转和大小)之间差异很大。我们讨论揭示这种行为差异的方式如何帮助我们设计更强大的模型培训和评估协议。最后,我们解释了人类,非人类动物和模型的概念学习行为分析之间的类比如何帮助我们更好地理解模型表现出的越来越多样化且通常是不可预测的行为。
