兰德研究强调确保人工智能模型权重的重要性;为前沿人工智能实验室提供用于基准安全措施的手册

在人工智能快速发展及其对国家安全的潜在风险的背景下,兰德公司的一项新研究探讨了如何最好地保护前沿人工智能模型免受恶意行为者的攻击。

来源:兰德国防安全研究中心首页

发布

2024 年 5 月 30 日星期四

在人工智能 (AI) 快速发展及其对国家安全的潜在风险的背景下,兰德公司的一项新研究探讨了如何最好地保护前沿人工智能模型免受恶意行为者的攻击。

研究

大多数研究都更广泛地关注人工智能系统的安全性,而这项研究则关注基础人工智能模型权重的潜在盗窃和滥用——通过在海量数据集上训练模型得出的可学习参数——并详细说明如何针对模型权重调整有前景的安全措施。

具体来说,它强调了前沿人工智能实验室现在应优先考虑的几项措施,以保护模型权重:将所有权重副本集中到有限数量的访问控制和监控系统中;减少具有授权的人数;加强接口以防止权重泄露;参与第三方红队;投资纵深防御以实现冗余;实施内部威胁计划;并结合机密计算来保护权重并减少攻击面。报告称,这些措施均未得到广泛实施,但均可在一年内实现。

“直到最近,人工智能安全主要还是一个商业问题,但随着技术变得越来越强大,确保这些技术不会落入可能利用它们的不良行为者的手中变得越来越重要,”兰德公司 Meselson 中心主任、报告作者之一 Sella Nevo 表示。 “这项研究不仅为人工智能公司提供了首创的剧本来抵御最复杂的攻击,还致力于促进政策制定者、人工智能开发者和其他利益相关者在风险管理策略和人工智能安全的更广泛影响方面的有意义的接触。”

Sella Nevo Meselson 中心 “保护 AI 模型权重:防止前沿模型被盗和滥用”, Jeff Alstott Meselson 中心 全球和新兴风险部门