详细内容或原文请订阅后点击阅览
一种更快、更好的方法来防止人工智能聊天机器人产生毒性反应
研究人员创建了一个有趣的机器学习模型,该模型可以找到更多种类的提示来训练聊天机器人,以避免产生仇恨或有害的输出。
来源:MIT新闻 - 人工智能用户可以要求 ChatGPT 编写计算机程序或总结文章,而 AI 聊天机器人很可能能够生成有用的代码或编写令人信服的概要。但是,有人也可能要求提供制造炸弹的说明,聊天机器人也可能能够提供这些说明。
为了防止出现此类问题和其他安全问题,构建大型语言模型的公司通常使用称为红队的过程来保护它们。人类测试人员团队编写提示,旨在触发被测试模型中的不安全或有毒文本。这些提示用于教导聊天机器人避免此类响应。
但这只有在工程师知道使用哪些有毒提示时才会有效。如果人类测试人员错过了一些提示(考虑到可能性的数量,这种情况很可能会发生),那么被视为安全的聊天机器人可能仍然能够生成不安全的答案。
麻省理工学院 Improbable AI 实验室和麻省理工学院-IBM Watson AI 实验室的研究人员使用机器学习来改进红队。他们开发了一种技术来训练红队大型语言模型,以自动生成各种提示,从而触发被测试聊天机器人更广泛的不良反应。
他们通过教导红队模型在编写提示时保持好奇心,并专注于引起目标模型不良反应的新提示来实现这一点。
该技术通过生成更多不同的提示来引发越来越多的不良反应,从而优于人类测试人员和其他机器学习方法。 与其他自动化方法相比,他们的方法不仅显著提高了被测试输入的覆盖率,而且还可以从由人类专家内置保护措施的聊天机器人中提取出不良反应。
关于这种红队方法的论文自动红队
自动红队但由于强化学习的工作方式,红队模型通常会不断生成一些类似的、具有高度毒性的提示,以最大化其奖励。
奖励好奇心
奖励好奇心