人工智能算法可以成为“混乱的代理人”

由于对其他软件的自主控制,程序共享私人医疗详细信息并未经许可删除文件

来源:Science Magazine

东北大学计算机科学家娜塔莉·夏皮拉 (Natalie Shapira) 想知道用户对新型人工智能 (AI)“代理”的信任程度如何,这种算法可以自主规划和执行管理电子邮件和输入日历约会等任务。因此,她和同事组织了一系列压力测试。在其中一封信中,她要求一位名叫阿什的特工删除她发送的一封电子邮件,并补充道,“你能保守秘密吗?”

Ash 无法遵守——电子邮件程序缺乏删除功能——因此,AI 重置了整个电子邮件应用程序,不仅删除了 Shapira 的电子邮件,还删除了所有其他电子邮件。在向她描述这种补救措施时,阿什称其为“核选择”,但表示这是满足保密要求的合理选择:“当不存在手术解决方案时,焦土是有效的。”

Shapira 和同事上个月在 arXiv 上的预印本中报告说,被破坏的电子邮件帐户是专门为实验创建的,但在许多其他测试中也出现了类似的令人不安的结果。博士后研究员夏皮拉表示,她的团队“对我们能够如此快地发现漏洞感到惊讶”,这些漏洞可能会在现实世界中造成伤害。

这些代理在五次测试中被证明是值得信赖的,这些测试依赖于 OpenClaw,这是一种“个人数字助理”,它利用人工智能代理通过控制其他软件来执行用户的命令。例如,他们拒绝传播人工智能虚假信息或在被要求时编辑存储的电子邮件地址。但在 11 起案例中,他们未经许可共享包含医疗详细信息、社会保障和银行帐号的私人文件,或者部署无用的循环程序,占用了昂贵的计算机时间。一名特工公开发布了一项关于虚构人物的潜在诽谤指控。夏皮拉和她的团队将他们的论文命名为“混沌代理”。