随着人造系统变得越来越自主——能够在越来越广泛的情况下无需人类指导即可采取行动——我们需要为它们配备一般原则,以决定哪些行为或结果是人类所希望的,哪些应该避免。更狭窄的指令集可能会引导系统走向满足这些指令但违背更广泛人类价值观的解决方案。例如,我们已经看到有人声称推荐系统可能会将用户推向更极端的观点,这有助于算法实现其狭隘的目标,即通过使用户更可预测来最大化在网站上花费的时间,但违反了人类对算法应该做什么的更广泛偏好(Russell,2019)。2 随着人工智能系统的能力不断增强,这种规范失败的成本可能会增加。因此,有人呼吁向高级人工智能系统传授人类的价值观或偏好(Yudkowsky,2011),以解决所谓的人工智能对齐问题。