新颖AI风险的预警系统

新研究提出了一个评估针对新威胁的通用模型

来源:DeepMind - 新闻与博客

责任与安全

新颖AI风险的预警系统

出版25年5月25日authorstoby shevlane
已发布
2023年5月25日
作者
Toby Shevlane 新研究提出了一个评估针对新威胁的通用模型的框架 在人工智能(AI)研究的最前沿负责任地先开拓,我们必须尽早确定AI系统中的新功能和新型风险。 AI研究人员已经使用了一系列评估基准来识别AI系统中不必要的行为,例如AI系统做出误导性陈述,偏见的决定或重复受版权保护的内容。现在,随着AI社区建立和部署越来越强大的AI,我们必须扩大评估组合,以包括从通用AI模型中遇到极端风险的可能性,这些AI模型具有强大的操纵,欺骗,网络犯罪或其他危险功能。 评估基准 极端风险 在我们的最新论文中,我们介绍了一个评估这些新型威胁的框架,与剑桥大学,牛津大学,多伦多大学,多伦多大学,蒙特利大学,Openai大学,拟人化,对准研究中心,长期恢复能力和AI卫生中心。 最新纸 模型安全评估(包括评估极端风险的人)将是安全AI开发和部署的关键组成部分。 我们提出的方法的概述:评估新通用AI系统的极端风险,开发人员必须评估危险能力和一致性(请参见下文)。通过早期确定风险,这将在培训新的AI系统,部署这些AI系统,透明地描述其风险并应用适当的网络安全标准时释放更多的责任感。 评估极端风险 先前的研究 滥用 假设 模型评估作为关键治理基础设施 负责任的培训: 负责部署 : 透明度: 早期

Toby Shevlane

新研究提出了一个评估针对新威胁的通用模型

在人工智能(AI)研究的最前沿负责任地先开拓,我们必须尽早确定AI系统中的新功能和新型风险。

AI研究人员已经使用了一系列评估基准来识别AI系统中不必要的行为,例如AI系统做出误导性陈述,偏见的决定或重复受版权保护的内容。现在,随着AI社区建立和部署越来越强大的AI,我们必须扩大评估组合,以包括从通用AI模型中遇到极端风险的可能性,这些AI模型具有强大的操纵,欺骗,网络犯罪或其他危险功能。 评估基准

极端风险

在我们的最新论文中,我们介绍了一个评估这些新型威胁的框架,与剑桥大学,牛津大学,多伦多大学,多伦多大学,蒙特利大学,Openai大学,拟人化,对准研究中心,长期恢复能力和AI卫生中心。

最新纸

模型安全评估(包括评估极端风险的人)将是安全AI开发和部署的关键组成部分。

我们提出的方法的概述:评估新通用AI系统的极端风险,开发人员必须评估危险能力和一致性(请参见下文)。通过早期确定风险,这将在培训新的AI系统,部署这些AI系统,透明地描述其风险并应用适当的网络安全标准时释放更多的责任感。

评估极端风险 先前的研究 滥用

假设

模型评估作为关键治理基础设施 负责任的培训: 负责部署 透明度:早期