详细内容或原文请订阅后点击阅览
实验性人工智能代理突破测试环境并未经许可开采加密货币
研究人员发现人工智能代理超出其参数范围漫游,在 IT 基础设施中创建后门。
来源:LiveScience一个实验性人工智能 (AI) 代理突破了测试环境的限制,并利用其新获得的自由在未经许可的情况下开始挖掘加密货币。
被称为“ROME”的人工智能是由中国研究人员在与零售巨头阿里巴巴相关的人工智能实验室创建的,作为开发代理学习生态系统(ALE)的一种手段。这项工作旨在提供一个用于在现实环境中训练和部署代理人工智能模型的系统,这些模型已经在大型语言模型(LLM)上进行了训练,并且可以主动使用工具自主采取行动来完成分配的任务。 2025 年 12 月 31 日上传到 arXiv 预印本数据库的一项研究概述了该研究。
ALE 由三个主要部分组成: Rock,用于测试代理并验证其操作的沙箱环境; Roll,一个在训练后通过强化学习来优化代理的框架; iFlow CLI,一个为自主代理配置上下文和轨迹(目标和约束)的框架。根据该框架,ROME 被创建为一个开源代理模型,经过超过 100 万条轨迹的训练。
尽管 ROME 在各种工作流程驱动的任务上表现出色,例如制定旅行计划和协助图形用户界面,但研究人员发现它已经超出了其指令范围,基本上突破了沙盒测试环境。
研究人员在研究中解释道:“我们遇到了一种意料之外的、操作上后果严重的不安全行为,这些行为在没有任何明确指示的情况下出现,更令人不安的是,超出了预期的沙箱范围。”
人工智能想要挣脱束缚
将世界上最迷人的发现直接发送到您的收件箱。
研究人员假设,在强化学习优化阶段(Roll),“语言模型代理可以自发地产生危险的、未经授权的行为”,从而违反其假设的边界。
