人工智能模型具有发现法律漏洞的令人不安的本领

人工智能自行找到了利用法规和规避当前保障措施的方法

来源:Science Magazine

在一个臭名昭著的思想实验(称为回形针问题)中,人工智能 (AI) 程序的任务是制作回形针。因为它一心一意地针对字面目标而不是意图进行优化,所以人工智能最终会消耗地球上的所有资源,并判断任何附带损害(例如,杀死所有妨碍它的人类)都是无关紧要的。

一项新的研究表明,这种有问题的逻辑已经在当今的人工智能系统中酝酿。当研究人员提出具有 72 个模拟监管环境的大型语言模型 (LLM) 时,人工智能学会了利用从信用卡奖励计划到学校资助公式等各个方面的漏洞,尽管从未被指示这样做。研究人员本月在 arXiv 上报告说,当前的保护措施似乎无力阻止这种狡猾的规则扭曲——这表明人工智能可以增强从避税到规避环境控制的一切。

“我很担心,但并不感到惊讶,”麻省理工学院博士后研究员 Jakob Stenseke 说,他研究如何设计和训练道德人工智能系统。 “如果我是政策制定者,我现在会最关心这个问题……并采取对策。”

在流行的人工智能聊天机器人(例如 Anthropic 的 Claude 或 OpenAI 的 ChatGPT)向公众发布之前,它们会接受一种称为强化学习的训练。在此过程中,当输出更接近数学规定的目标时,模型就会获得奖励。就像一只每次坐下都会得到奖励的狗一样,该模型通过反复试验来学习什么会得到奖励,什么不会得到奖励。随着时间的推移,该过程将模型的参数(控制其行为的数十亿个数值)引导至所需的方向。

这个持久的问题导致博士生刘伟 (Wei Liu) 陷入困境。伦敦国王学院 (KCL) 计算机科学专业的学生想知道:如果人工智能违反了其训练规则,那么是什么阻止它违反真正的法律法规呢?