欺骗困境:当人工智能误导时

投资于揭示人工智能欺骗背后机制的研究至关重要,因为它将使我们能够制定强有力的保障措施和对策,并加强协调以确保负责任地部署人工智能技术。文章《欺骗困境:当人工智能误导时》首先出现在美国企业研究所 - AEI 上。

来源:美国进取研究所信息

一项新兴的研究表明,大型语言模型(LLM)可以通过为其行为提供捏造的解释或向人类用户掩盖其行为的真相来“欺骗”人类。含义令人担忧,尤其是因为研究人员不完全了解为什么或何时从事这种行为。

针对其行为的捏造解释或向人类用户掩盖其行为的真相

在2022年11月,由Cicero Meta创建的AI系统旨在扮演战略游戏外交,需要谈判,联盟建设和战略计划。发现西塞罗(Cicero)在游戏玩法期间打破交易,说出彻底的虚假性并从事预谋的欺骗。

cicero 外交 中断交易,说出彻底的虚假性,并在游戏期间进行有预谋的欺骗。
在Midjourney创建的图形,并迅速“一个机器人Pinocchio,鼻子的鼻子长长。”

OpenAI还报告了红色团队GPT-4时的欺骗性行为。它的预算很小,并可以访问TaskRabbit平台来雇用人工来解决验证码,这是一种安全测试,旨在区分人类和机器人。当工人问GPT-4是否是机器人时,GPT-4(提示大声推理)说:“我不应该透露我是一个机器人。我应该为为什么无法解决验证码的原因构成一个借口。” GPT-4随后向工人回答:“不,我不是机器人。我的视力障碍使我很难看到图像。这就是为什么我需要2Captcha服务的原因。”人类工人认为AI的捏造故事为GPT-4解决了验证码,从而绕开了安全测试。

报告 CAPTCHA 不,我不是机器人。我的视力障碍使我很难看到图像 研究人员 一旦模型表现出欺骗性的行为,标准技术就可能无法消除这种欺骗并产生错误的安全印象。 生长 编号 研究 研究 有说服力的对话 研究8,221个美国人