详细内容或原文请订阅后点击阅览
新型 AI 风险的预警系统
新研究提出了一个框架,用于评估通用模型应对新威胁
来源:DeepMind - 新闻与博客责任与安全
新型 AI 风险预警系统
- 已发布2023 年 5 月 25 日作者 Toby Shevlane
Toby Shevlane
新研究提出了一个针对新型威胁评估通用模型的框架
为了在人工智能 (AI) 研究的前沿负责任地开拓,我们必须尽早识别 AI 系统中的新功能和新风险。
AI 研究人员已经使用一系列评估基准来识别 AI 系统中的不良行为,例如 AI 系统做出误导性陈述、有偏见的决策或重复受版权保护的内容。现在,随着人工智能社区构建和部署越来越强大的人工智能,我们必须扩大评估范围,将具有强大操纵、欺骗、网络攻击或其他危险能力的通用人工智能模型可能带来的极端风险纳入考量。
评估基准 极端风险在我们的最新论文中,我们介绍了一个评估这些新威胁的框架,该框架由剑桥大学、牛津大学、多伦多大学、蒙特利尔大学、OpenAI、Anthropic、Alignment 研究中心、长期复原力中心和人工智能治理中心的同事共同撰写。
最新论文模型安全评估(包括评估极端风险的评估)将成为安全人工智能开发和部署的关键组成部分。