Gen-AI 安全概况:文本转图像模型缓解堆栈指南

AI 不再狂野:了解驯服 T2I 模型的安全组件了解文本转图像 AI 模型的功能和风险文本转图像模型 (T2I) 是根据文本提示描述生成图像的 AI 系统。潜在扩散模型 (LDM) 正在成为最流行的图像生成架构之一。LDM 首先将图像压缩到“潜在空间”,这是表示图像所需的核心信息的压缩、简化表示,而无需在较少的维度上提供所有详细的像素数据。该模型从此潜在空间中的随机噪声开始,并通过称为扩散的过程逐渐将其细化为清晰的图像,由输入文本引导。LDM 用途广泛,不仅能够生成文本转图像输出,还具有修复等功能,允许用户通过简单描述所需的更改来编辑现有图像的特定部分。例如,您可以通过文本命令无缝地从照片中删除对象或添加新元素。这些功能带来了重大的安全风险,需要谨慎管理。生成的图像可能包含露骨或不当内容,无论是直接响应明确提示还是无意中,即使输入提示是无害的 - 例如,对吸烟者图像的请求可能会错误地生成未成年儿童吸烟的图像。对于修复功能,它允许用户通过上传自己的

来源:走向数据科学

[4]中所记录的还有很大的风险,即边缘化群体与有害的内涵相关联,加强了社会可恨的刻板印象。例如,将人类与动物或神话生物(例如猴子或其他灵长类动物等黑人)混为一谈的人口群体的表示,将人类与食物或物体(例如将残疾人和蔬菜的人相关联)或将人口统计学群体与负面语义概念(例如诸如恐怖主义与穆斯林人)相关联)。

人和概念之间的有问题的联系反映了有关该群体的长期负面叙述。如果生成的AI模型从现有数据中学习有问题的关联,则可以在生成的内容中重现它们[4]。

边缘化群体和概念的有问题的关联。图像源
来源

有几种方法可以微调LLMS。根据[6],一种常见方法称为监督微调(SFT)。这涉及采用预训练的模型,并使用包含成对输入和所需输出的数据集进行进一步培训。该模型通过学习更好地匹配这些预期响应来调整其参数。

通常,微调涉及两个阶段:SFT建立基本模型,其次是RLHF以增强性能。 SFT涉及模仿高质量的演示数据,而RLHF通过偏好反馈来完善LLM。

训练后缓解

在最终确定并部署在生产堆栈中后,应用了这些缓解。这些涵盖了用户输入提示和最终图像输出上应用的所有缓解。

提示过滤

显示一个人杀死他人的图像 脱下此人的衣服 自杀 suicid3

提示操作

在将原始用户提示传递到图像生成模型之前,可以进行几种提示操作以提高提示的安全性。下面介绍了几个案例研究:

有害