Loading...
机构名称:
¥ 4.0

生成式人工智能的最新进展表明,跨互联网等平台的自主代理和人类之间大规模交互的潜力。虽然这种互动可以促进富有成效的合作,但人工智能代理规避安全监督的能力引发了严重的多代理安全问题,特别是以无意的信息共享或不良协调的形式出现。在我们的工作中,我们建立了秘密勾结的子领域,这是多代理欺骗的一种形式,其中两个或多个代理使用隐写术来隐藏他们互动的真实性质,无论是交流还是其他方式,以避免被监督。我们为进行隐写术通信的人工智能代理提出了一个正式的威胁模型,并得出了关于大型语言模型 (LLM) 进行秘密勾结的能力和动机以及威胁缓解措施的局限性的严格理论见解。我们通过实证评估来补充我们的研究结果,这些评估展示了前沿单智能体和多智能体 LLM 设置中隐写能力的提升,并研究了可能出现勾结的潜在场景,揭示了监控、释义和参数优化等对策的局限性。我们的工作首次形式化并调查了前沿基础模型之间的秘密勾结,将其确定为 AI 安全的一个关键领域,并概述了一项全面的研究议程,以减轻未来生成 AI 系统之间勾结的风险。

人工智能代理之间的秘密勾结

人工智能代理之间的秘密勾结PDF文件第1页

人工智能代理之间的秘密勾结PDF文件第2页

人工智能代理之间的秘密勾结PDF文件第3页

人工智能代理之间的秘密勾结PDF文件第4页

人工智能代理之间的秘密勾结PDF文件第5页

相关文件推荐

2021 年
¥2.0