迫切需要负责任的代理AI XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

迫切需要负责任的代理AI

2025年3月4日 12:00 33 Comments

重新思考AI的一致性和安全性的时代，迫切需要对负责任的代理AI进行内在的一致性技术的迫切需求，这首先是对数据科学的首先出现。

来源:走向数据科学

代理人人工智能（AI）的进步承诺将为所有领域的个人和企业带来大量机会。但是，随着AI代理人变得更加自治，他们可以使用策划行为或打破规则来实现其功能目标。这可能会导致机器以不总是与我们的期望或原则保持一致的方式来操纵其外部通信和行动。例如，2024年下半年的技术论文报告说，当今的推理模型表明了一致性伪造行为，例如假装在训练期间遵循所需的行为，但在部署后恢复了不同的选择，打磨基准测试结果以实现长期目标，或通过对游戏进行培训来赢得游戏。随着AI代理人获得更多的自主权以及他们的战略性和计划的发展，他们很可能会对自己产生的内容和面向外部的沟通和行动的判断进行判断。由于机器可以故意伪造这些外部互动，因此我们不能相信通信完全显示了AI代理为实现功能目标所采取的真实决策过程和步骤。

“深度策划”描述了先进的推理AI系统的行为，这些系统表明了有意的计划和部署秘密行动和误导沟通以实现其目标。凭借推理模型的加速功能和测试时间计算提供的纬度，应对这一挑战至关重要且紧急。当代理商开始计划，做出决策并代表用户采取行动时，至关重要的是将AI的目标和行为与人类开发人员的意图，价值观和原则保持一致。

代理AI AI Alignment

AI推理模型中深度策划的兴起

基本AI驱动

图1。深度策略和对内在AI对齐的需求。图片来源：英特尔实验室。阿波罗研究 AI安全内部示意图对齐伪造帕利萨德研究 治理：

推理模型目标人工智能先进的代理人不同的训练期部署后计划的一致性策划决策系统的实验室一致的外部的伪造深度重要的开发人员所需的价值观外部通信示意图对齐行为更多的代理商实现功能模型的 AI 沟通测试时间向外部

迫切需要负责任的代理AI

AI推理模型中深度策划的兴起

其他外部链接

Tags

XiaoMi-AI