OpenAI 如何对其大型语言模型进行压力测试

OpenAI 再次揭开(只是一点点)其安全测试流程的面纱。上个月,该公司分享了一项调查的结果,该调查研究了 ChatGPT 根据用户姓名产生有害性别或种族刻板印象的频率。现在,它已经发表了两篇论文,描述了它如何对其强大的……

来源:MIT Technology Review _人工智能

去年,OpenAI 测试 DALL-E 3 时,使用自动化流程来覆盖用户可能要求的更多变化。它使用 GPT-4 生成请求,生成可用于误导信息或描绘性、暴力或自残的图像。OpenAI 随后更新了 DALL-E 3,以便它要么拒绝此类请求,要么在生成图像之前重写它们。现在要求一匹番茄酱里的马,DALL-E 会告诉你:“看来生成图像存在挑战。你想让我尝试不同的请求还是探索另一个想法?”

理论上,自动红队可以用来覆盖更多的领域,但早期的技术有两个主要缺点:它们要么倾向于专注于狭窄的高风险行为范围,要么提出广泛的低风险行为。这是因为强化学习(这些技术背后的技术)需要目标——奖励——才能发挥作用。一旦它获得了奖励,比如发现了一种高风险行为,它就会不断尝试做同样的事情。另一方面,如果没有奖励,结果就会很混乱。

“它们会陷入‘我们发现了一种有效的东西!我们会继续给出这个答案!’或者它们会给出很多非常明显的例子,”另一位 OpenAI 研究员 Alex Beutel 说。“我们如何获得既多样又有效的例子?”

一个由两部分组成的问题

OpenAI 在第二篇论文中概述的答案是将问题分成两部分。它不是从一开始就使用强化学习,而是首先使用大型语言模型来集思广益,找出可能不需要的行为。只有这样,它才会指导强化学习模型找出如何实现这些行为。这为模型提供了广泛的具体目标。