2022 年 5 月 4 日 摘要 鉴于人工智能 (AI) 日益渗透到我们的生活,我们必须系统地将人工智能目标与人类的目标和价值观保持一致。人机对齐问题源于明确指定人工智能模型在所有相关状态下采取的所有行动应获得的奖励是不切实际的。因此,一种可能的解决方案是利用人工智能模型的能力,从描述广泛背景下的人类价值观的丰富数据源中隐式地学习这些奖励。民主政策制定过程通过制定具体规则、灵活标准、可解释的指导方针和可推广的先例来产生这样的数据,这些先例综合了公民对世界许多州可能采取的行动的偏好。因此,对公共政策进行计算编码以使其对人工智能系统可读应该是解决更广泛的人机对齐难题的社会技术方法的重要组成部分。法律学者正在探索人工智能,但大多数研究都集中在人工智能系统如何适应现有法律,而不是人工智能如何理解法律。本文概述了人工智能研究,该研究学习了可用于下游任务的政策数据结构。为了展示人工智能理解政策的能力,我们提供了一个人工智能系统的案例研究,该系统预测了拟议立法与特定上市公司的相关性及其对该公司的可能影响。我们认为这代表了人工智能和政策的“理解”阶段,但利用政策作为人类价值观的关键来源来协调人工智能需要“理解”政策。我们概述了我们认为朝着这个方向前进需要做的事情,以及两个朝这个方向的示例研究项目。解决协调问题对于确保人工智能对个人(对部署人工智能的个人或团体)和社会都有益至关重要。随着人工智能系统在高风险环境中承担越来越多的责任,将民主决定的政策整合到这些系统中可以使其行为与人类目标保持一致,以响应不断发展的社会。
主要关键词