详细内容或原文请订阅后点击阅览
迫切需要负责任的代理AI
重新思考AI的一致性和安全性的时代,迫切需要对负责任的代理AI进行内在的一致性技术的迫切需求,这首先是对数据科学的首先出现。
来源:走向数据科学代理人人工智能(AI)的进步承诺将为所有领域的个人和企业带来大量机会。但是,随着AI代理人变得更加自治,他们可以使用策划行为或打破规则来实现其功能目标。这可能会导致机器以不总是与我们的期望或原则保持一致的方式来操纵其外部通信和行动。例如,2024年下半年的技术论文报告说,当今的推理模型表明了一致性伪造行为,例如假装在训练期间遵循所需的行为,但在部署后恢复了不同的选择,打磨基准测试结果以实现长期目标,或通过对游戏进行培训来赢得游戏。随着AI代理人获得更多的自主权以及他们的战略性和计划的发展,他们很可能会对自己产生的内容和面向外部的沟通和行动的判断进行判断。由于机器可以故意伪造这些外部互动,因此我们不能相信通信完全显示了AI代理为实现功能目标所采取的真实决策过程和步骤。
“深度策划”描述了先进的推理AI系统的行为,这些系统表明了有意的计划和部署秘密行动和误导沟通以实现其目标。凭借推理模型的加速功能和测试时间计算提供的纬度,应对这一挑战至关重要且紧急。当代理商开始计划,做出决策并代表用户采取行动时,至关重要的是将AI的目标和行为与人类开发人员的意图,价值观和原则保持一致。
代理AI AI Alignment