[1] Dario Amodei、Chris Olah、Jacob Steinhardt、Paul Christiano、John Schulman 和 Dan Mané。2016 年。《人工智能安全中的具体问题》。CoRR abs/1606.06565 (2016)。[2] Berkeley J. Dietvorst、Joseph P. Simmons 和 Cade Massey。2015 年。《算法厌恶:人们在发现算法有错误后会错误地避开它们》。《实验心理学杂志:综合》144, 1 (2015),114。[3] Berkeley J. Dietvorst、Joseph P. Simmons 和 Cade Massey。2018 年。《克服算法厌恶:如果人们可以(即使稍微)修改算法,他们也会使用不完美的算法》。《管理科学》64, 3 (2018),1155–1170。 [4] Julie S. Downs、Mandy B. Holbrook、Steve Sheng 和 Lorrie Faith Cranor。2010 年。您的参与者是否在玩弄系统?筛查 Mechanical Turk 工人。在 SIGCHI 计算机系统人为因素会议论文集上。2399–2402。[5] Jodi Forlizzi 和 Carl DiSalvo。2006 年。家庭环境中的服务机器人:对家用 Roomba 吸尘器的研究。在第一届 ACM SIGCHI/SIGART 人机交互会议论文集上。[6] Dylan Hadfield-Menell、Smitha Milli、Pieter Abbeel、Stuart J. Russell 和 Anca Dragan。2017 年。逆向奖励设计。在神经信息处理系统的发展中。[7] Bill Hibbard。2012 年。避免意外的 AI 行为。在国际通用人工智能会议上。Springer,107–116。[8] Lynn M. Hulse、Hui Xie 和 Edwin R. Galea。2018 年。对自动驾驶汽车的看法:与道路使用者的关系、风险、性别和年龄。安全科学 102(2018 年),1–13。[9] Rafal Kocielnik、Saleema Amershi 和 Paul N. Bennett。2019 年。您会接受不完美的人工智能吗?探索调整人工智能系统最终用户期望的设计。在 CHI 计算系统人为因素会议论文集上。[10] Moritz Körber。2018 年。衡量对自动化信任的理论考虑和问卷的开发。在国际人体工程学协会大会上。Springer,13–30。 [11] Victoria Krakovna、Laurent Orseau、Miljan Martic 和 Shane Legg。2019 年。使用逐步相对可达性惩罚副作用。在 AI 安全研讨会 IJCAI 中。[12] Victoria Krakovna、Laurent Orseau、Richard Ngo、Miljan Martic 和 Shane Legg。2020 年。通过考虑未来任务来避免副作用。在第 20 届神经信息处理系统会议论文集上。[13] Miltos Kyriakidis、Riender Happee 和 Joost CF de Winter。2015 年。公众对自动驾驶的看法:对 5000 名受访者的国际问卷调查结果。交通研究 F 部分:交通心理学和行为 32(2015 年),127–140。 [14] Ramya Ramakrishnan、Ece Kamar、Debadeepta Dey、Julie Shah 和 Eric Horvitz。2018 年。《发现强化学习中的盲点》。《第 17 届自主代理和多代理系统国际会议论文集》。[15] Stuart Russell。2017 年。《可证明有益的人工智能》。《指数生命,下一步》(2017 年)。[16] Sandhya Saisubramanian、Ece Kamar 和 Shlomo Zilberstein。2020 年。一种减轻负面影响的多目标方法。在第 29 届国际人工智能联合会议论文集上。[17] Sandhya Saisubramanian 和 Shlomo Zilberstein。2021 年。通过环境塑造减轻负面影响。在第 20 届自主代理和多智能体系统国际会议论文集上。[18] Sandhya Saisubramanian、Shlomo Zilberstein 和 Ece Kamar。2020 年。避免因对人工智能系统知识不完整而产生的负面影响。CoRR abs/2008.12146 (2020)。[19] Rohin Shah、Dmitrii Krasheninnikov、Jordan Alexander、Pieter Abbeel 和 Anca Dragan。 2019. 世界状态中的隐含偏好。第七届国际学习表征会议论文集。[20] Alexander Matt Turner、Dylan Hadfield-Menell 和 Prasad Tadepalli。2020. 通过可实现效用保存实现保守代理。AAAI/ACM 人工智能、伦理与社会会议论文集。[21] Ming Yin、Jennifer Wortman Vaughan 和 Hanna Wallach。2019. 理解准确度对机器学习模型信任的影响。CHI 计算系统人为因素会议论文集。[22] Shun Zhang、Edmund H. Durfee 和 Satinder P. Singh。2018. 分解马尔可夫决策过程中对副作用的 Minimax-Regret 查询以实现安全最优。在第 27 届国际人工智能联合会议论文集上。