介绍 Frontier Safety Framework

我们分析和减轻先进人工智能模型未来风险的方法

来源:DeepMind - 新闻与博客

我们分析和减轻先进 AI 模型带来的未来风险的方法

Google DeepMind 一直在不断突破 AI 的界限,开发的模型彻底改变了我们对可能性的理解。我们相信,即将出现的 AI 技术将为社会提供宝贵的工具,帮助应对气候变化、药物发现和经济生产力等重大全球挑战。与此同时,我们认识到,随着我们继续推进 AI 能力的前沿,这些突破最终可能会带来超出当今模型所带来的新风险。

今天,我们推出了 Frontier Safety Framework - 一套协议,用于主动识别可能造成严重危害的未来 AI 能力,并建立机制来检测和减轻这些危害。我们的框架侧重于模型级强大能力(例如特殊代理或复杂的网络能力)导致的严重风险。它旨在补充我们的一致性研究,该研究训练模型按照人类价值观和社会目标以及 Google 现有的 AI 责任和安全实践套件行事。

前沿安全框架 实践

该框架是探索性的,我们预计,随着我们从其实施中学习、加深对人工智能风险和评估的理解以及与行业、学术界和政府的合作,它将发生重大变化。尽管这些风险超出了当今模型的范围,但我们希望实施和改进该框架将有助于我们为应对这些风险做好准备。我们的目标是在 2025 年初全面实施这一初始框架。

框架

今天宣布的框架的第一个版本建立在我们对前沿模型中关键能力评估的研究基础上,并遵循负责任能力扩展的新兴方法。该框架有三个关键组成部分:

研究 评估 负责任的能力扩展。

投资科学