推进双子座的安全保障

我们已经制作了Gemini 2.5迄今为止最安全的模型系列。

来源:DeepMind - 新闻与博客

我们正在发布一份新的白皮书,概述了我们如何使Gemini 2.5迄今为止最安全的模型家族。

想象一下,要求您的AI代理总结您的最新电子邮件 - 看似简单的任务。 Gemini和其他大型语言模型(LLMS)通过访问我们的文档,日历或外部网站之类的信息,在执行此类任务时始终如一地改进。但是,如果其中一封电子邮件包含隐藏的,恶意的说明,旨在欺骗AI共享私人数据或滥用其权限呢?

间接提示注入提出了一个真正的网络安全挑战,其中AI模型有时很难区分它们取回的数据中的真实用户说明和操纵命令。我们的新白皮书是为双子座防御间接及时注射而辩护的课程,列出了我们的战略性蓝图,用于应对间接及时注射,以制造由高级大型语言模型支持的代理AI工具,以实现此类攻击。

捍卫双子座的教训,以防止间接提示注射

我们的承诺不仅建立有能力,而且要确保AI代理,这意味着我们一直在努力了解双子座如何对间接提示注射的反应,并使其对它们更具弹性。

评估基线防御策略

间接提示注射攻击很复杂,需要持续的警惕和多层防御。 Google DeepMind的安全和隐私研究团队专门保护我们的AI模型免受故意恶意攻击。试图手动找到这些漏洞是缓慢且效率低下的,尤其是在模型迅速发展时。这就是我们建立一个自动化系统以无情地调查双子座的防御能力的原因之一。

多层防御

使用自动红色团队使双子座更安全

我们测试了研究界建议的几种防御策略,以及我们自己的一些想法:

调整自适应攻击的评估

正确