新型 AI 风险的预警系统

新研究提出了一个框架,用于评估通用模型应对新威胁

来源:DeepMind - 新闻与博客

责任与安全

新型 AI 风险预警系统

已发布2023 年 5 月 25 日作者 Toby Shevlane
已发布
2023 年 5 月 25 日
作者
Toby Shevlane

Toby Shevlane

新研究提出了一个针对新型威胁评估通用模型的框架

为了在人工智能 (AI) 研究的前沿负责任地开拓,我们必须尽早识别 AI 系统中的新功能和新风险。

AI 研究人员已经使用一系列评估基准来识别 AI 系统中的不良行为,例如 AI 系统做出误导性陈述、有偏见的决策或重复受版权保护的内容。现在,随着人工智能社区构建和部署越来越强大的人工智能,我们必须扩大评估范围,将具有强大操纵、欺骗、网络攻击或其他危险能力的通用人工智能模型可能带来的极端风险纳入考量。

评估基准 极端风险

在我们的最新论文中,我们介绍了一个评估这些新威胁的框架,该框架由剑桥大学、牛津大学、多伦多大学、蒙特利尔大学、OpenAI、Anthropic、Alignment 研究中心、长期复原力中心和人工智能治理中心的同事共同撰写。

最新论文

模型安全评估(包括评估极端风险的评估)将成为安全人工智能开发和部署的关键组成部分。

我们提出的方法概述:要评估来自新的通用人工智能系统的极端风险,开发人员必须评估危险能力和一致性(见下文)。通过尽早识别风险,这将为在训练新的人工智能系统、部署这些人工智能系统、透明地描述其风险以及应用适当的网络安全标准时更加负责任地提供机会。

评估极端风险

先前的研究 滥用 假设

模型评估作为关键治理基础设施

负责任的培训: 透明度: 早期