在2023年12月,我们发布了我们的准备框架,这是一份活着的文件,可指导我们最先进的AI模型的安全部署。基于科学驱动的评估,迭代部署和持续改进,该框架塑造了我们评估和减轻边境风险的方法。在过去的一年中,我们收集了来自现实世界测试,专家反馈和新兴研究的见解,并且我们正在积极地研究了我们计划在今年晚些时候发布的修订版。此更新将反映出我们的风险阈值,缓解策略等的改进。当前的框架确定并评估了几个类别的风险,包括网络安全性,化学,生物学,放射学和核(CBRN)威胁,说服力,自主权以及潜在的“未知未知”,以及结合威胁建模,特殊的能力启发,外部专家评论,以及更糟糕的情况,以实现风景。通过动态记分卡评估每个风险,该动态记分卡衡量采用安全措施之前和之后的结果。这不仅使我们能够在最坏情况下了解新兴威胁的严重性,而且还可以验证我们的干预措施是否在任何模型释放之前将风险降低到可接受的水平。为了解决这些风险,我们使用各种缓解策略。遏制策略着重于限制与财产相关的风险,例如隔间化和限制对受信任用户的访问。部署缓解措施包括诸如拒绝,数据修订,使用策略,用法监控,执行和警告合作伙伴之类的措施。当前,只能部署具有“媒介”或以下的减速后得分的模型。同样,只能继续开发“高”或以下的降低后评分的模型。我们还建立了一种治理结构来维护程序承诺并确保有效的风险管理。这包括我们的准备团队,该团队的重点是识别,预测和量化边境能力以及潜在的灾难性风险;我们的安全和一致性研究团队确保了AI模型的安全性,鲁棒性和可靠性及其在现实世界中的部署,以及研究可扩展的,可信赖的AI系统,这些系统始终如一地遵循人类意图。我们的平台安全团队定义了我们的用法
主要关键词