今天的AI在许多方面都很出色,但也不可靠。这种不可靠的能力施加了重大的社会安全风险,并限制了我们以强大和合法的方式管理这些系统的能力。保护的AI计划是5900万英镑的R&D努力,旨在开发通用AI工作流程,用于生产特定领域的AI代理或决策支持工具,用于管理具有定量保证的网络物理系统,与现有操作相比,对性能和鲁棒性提高了。这样做,我们试图证明一种新的,替代的研究和发展途径的生存能力,用于安全和变革性的AI。维护AI设想了利用最新状态“边境” AI以及人类专业知识的研发途径,以构建一个监视其他AI代理商的安全行为,以构建一个看门人系统。一个守门人由有关应用领域的正式世界模型和安全规范组成,以及负责提出有效任务政策并生成可验证的安全保证的几个ML组件等。所得的保护的AI系统将在可靠性是关键的一系列广泛的关键业务或关键的网络物理应用程序域中解锁最先进的机器学习模型的原始潜力。它还将通过提供高保证安全保证并建立大规模的文明弹性来降低边境AI的风险,从而在可接受的时间范围内将人类潜在的未来“流氓AIS”的脆弱性降低到可接受的水平。该计划将开发用于构建此类保护的AI工作流程的工具包,并在能源,运输,电信,医疗保健等一系列应用领域中演示。首先,这将作为概念证明,证明可以通过定量安全保证实现AI在安全关键应用中的好处;其次,催化进一步的研发以复制和扩展其他应用领域以及世界其他部署的结果。保护的AI计划分为三个主要技术领域(TAS)。
主要关键词