NIST 数学证明支持人工智能系统向持续监控和更新安全模型的过渡

该证明将著名数学家库尔特·哥德尔 (Kurt Gödel) 使用的逻辑扩展到人工智能,他的不完备性定理对数学产生了近一个世纪的深远影响。

来源:美国国家标准技术研究所

图片来源:TippaPatt/Shutterstock

我们能否让人工智能免受那些想要利用技术达到邪恶目的的对手的影响?尽管人工智能是最新的技术之一,但这个问题的答案已有近一个世纪的历史。

尽管我们尽了最大的努力,但使用传统的安全模型,我们永远无法使人工智能完全无懈可击。美国国家标准与技术研究院 (NIST) 的高级科学家 Apostol Vassilev 在同行评审期刊《IEEE 安全与隐私》中,基于著名逻辑学家库尔特·哥德尔 (Kurt Gödel) 于 1931 年发表的研究成果,发表了这一说法的数学证明。他的不完备性定理表明,在建立在有限数量规则之上的系统中可以证明的内容是有限的。

控制 AI 行为的护栏就是这样一个系统,证明的含义之一是,总会有一种方法促使 AI 系统无视其规则 - 只需找到它即可。

“负责任的人工智能的支柱之一是你希望技术是安全的,”证明的作者、对抗性机器学习专家瓦西列夫说。 “你希望它能够承受对抗性攻击,并且只执行你想要它做的事情,而不是攻击者可能想要的事情。这个证据表明,不存在一组有限的护栏可以普遍抵御对抗性提示。”

开发人工智能的公司通常承认,他们正在创建的工具有可能对现实世界造成伤害,因此他们设置了限制,旨在阻止人工智能生成违禁内容,例如深度伪造、恶意软件或制造生物武器或非法药物的指令。如果系统被提示生成此类内容,护栏应标记该问题并拒绝遵守。

那么我们该怎么办呢?瓦西列夫提供了一种方法,虽然不能完全解决问题,但会使对抗性提示成功越狱人工智能变得更加困难。