人工智能:生成式 AI 训练、开发和部署注意事项

GAO 发现商业开发者使用几种常见做法来促进生成人工智能 (AI) 技术的负责任开发和部署。例如,他们可以使用基准测试来评估模型的准确性,在部署之前雇用多学科团队来评估模型,并进行红队测试以测试其模型的安全性并识别潜在风险等。这些做法侧重于定量和定性评估方法,以提供准确和情境化的结果,以及防止有害输出。此外,商业开发者在负责任地开发和部署生成 AI 技术以确保其安全可靠方面面临一些限制。首先,开发人员认识到他们的模型并不完全可靠,用户判断应该在接受模型输出方面发挥作用。在各种白皮书、模型卡和其他文档中,他们指出,尽管采取了缓解措施,但他们的模型可能会产生不正确的输出、表现出偏见或容易受到攻击。此类攻击包括即时注入攻击、越狱和数据中毒。提示注入攻击和越狱依赖于文本提示输入,这些输入可能会改变生成式 AI 模型的行为,而这些模型可能会被用于开展虚假信息活动或传播恶意软件以及其他恶意活动。数据中毒是攻击者可以改变生成式 AI 模型行为的过程

来源:美国政府问责局__技术评估产品信息

Gao发现了什么

商业开发人员使用几种常用实践来促进负责任的开发和部署生成人工智能(AI)技术。例如,他们可以使用基准测试来评估模型的准确性,使用多学科团队在部署前评估模型,并进行红色团队以测试其模型的安全性并确定潜在的风险等。这些实践着重于定量和定性评估方法,以提供准确和上下文的结果,并防止有害产出。

此外,商业开发人员在负责任地开发和部署生成的AI技术方面面临一些局限性,以确保他们安全和值得信赖。首先,开发人员认识到他们的模型并不完全可靠,并且用户判断应在接受模型输出中发挥作用。在各种白皮书,模型卡和其他文档中,他们指出,尽管进行了缓解措施,但他们的型号可能会产生不正确的产出,表现出偏见或容易受到攻击。此类攻击包括及时注射攻击,越狱和数据中毒。迅速的注射攻击和越狱依赖于文本提示输入,这些输入可能会改变生成AI模型的行为,该模型可用于开展误导性运动或传输恶意软件,以及其他恶意活动。数据中毒是攻击者可以通过操纵训练数据或过程来改变生成AI系统的行为的过程。

对生成人工智能(AI)模型的提示注射攻击的概述

为什么Gao进行了这项研究

有关更多信息,请致电(202)512-6888与Brian Bothwell联系,或Bothwellb@gao.gov或Kevin Walsh,请致电(202)512-6151或walshk@gao.gov。

bothwellb@gao.gov walshk@gao.go