摘要:近年来,人工智能 (AI) 安全在各种安全关键和道德问题的影响下获得了国际认可,这些问题有可能掩盖 AI 的广泛有益影响。在此背景下,AI 观测站工作的实施代表了一个关键的研究方向。本文提出了一种跨学科的 AI 观测站方法,将各种回顾性和反事实观点融为一体。我们利用具体的实际例子提供实用建议,同时阐明目标和局限性。区分无意和有意触发的具有不同社会心理技术影响的 AI 风险,我们举例说明了回顾性描述性分析,然后是回顾性反事实风险分析。基于这些 AI 观测站工具,我们提出了近期的跨学科 AI 安全指南。作为进一步的贡献,我们通过两个不同的现代人工智能安全范式的视角讨论了差异化和量身定制的长期方向。为简单起见,我们分别用术语人工智能愚蠢(AS)和永恒创造力(EC)来指代这两个不同的范式。虽然 AS 和 EC 都承认需要采用混合认知情感方法来确保人工智能安全,并且在许多短期考虑方面存在重叠,但它们在多个设想的长期解决方案模式的性质上存在根本区别。通过汇编相关的潜在矛盾,我们旨在为实践和理论人工智能安全研究中的建设性辩证法提供面向未来的激励。
想象一下,明天一家知名科技公司宣布他们已经成功创建了人工智能 (AI),并让你对其进行测试。你决定首先测试所开发的人工智能的一些非常基本的能力,例如将 317 乘以 913 和记住你的电话号码。令你惊讶的是,系统在这两项任务上都失败了。当你询问系统的创建者时,你被告知他们的人工智能是人类水平的人工智能 (HLAI),而且由于大多数人无法执行这些任务,所以他们的人工智能也不能。事实上,你被告知,许多人甚至不能计算 13 x 17,或者记住他们刚遇到的人的名字,或者认出办公室外的同事,或者说出他们上周二早餐吃了什么2。此类限制的清单相当长,是人工智能愚蠢领域的研究主题 [Trazzi and Yampolskiy, 2018; Trazzi and Yampolskiy, 2020]。术语“通用人工智能 (AGI)”[Goertzel 等人,2015] 和“人类水平人工智能 (HLAI)”[Baum 等人,2011] 已互换使用(参见 [Barrat,2013],或“(AGI)是一种机器的假设智能,它有能力理解或学习人类能够完成的任何智力任务。”[匿名,2020 年 7 月 3 日检索]),指的是人工智能 (AI) 研究的圣杯,创造一种能够:在广泛的环境中实现目标的机器
资料来源:Yampolskiy, RV (2013)。图灵测试是 AI 完备性的一个定义特征。人工智能、进化计算和元启发式:追随艾伦·图灵的脚步,3-17。Levesque, Hector J. 常识、图灵测试和对真正 AI 的追求。麻省理工学院出版社,2017 年。Ertel, Wolfgang。人工智能简介。Springer,2018 年。Warwick, Kevin 和 Huma Shah。“机器能思考吗?皇家学会图灵测试实验报告。”实验与理论人工智能杂志 28,第 6 期(2016 年):989-1007。卡通来源:https://twitter.com/tomgauld/status/1250526517064544256
弗洛伊德(1961)曾有句名言:文明表面上是为了保护人类免遭苦难,但矛盾的是,它却是不幸的一大根源。同样,人工智能既被吹捧为人类最大问题的解决方案,又被谴责为人类有史以来面临的最大问题之一——甚至可能是最后一个问题。许多专家认为,人工智能对人类在这个星球上的生存构成了威胁:如果不是核战争、气候灾难或另一场全球流行病,那么预示世界末日的将是“超级智能”机器(Barrat 2013;Bostrom 2014;Clark 2014;Yampolskiy 2015;Müller 2016;Cava 2018;Russell 2019)。也可能不是。其他人工智能倡导者声称,新一轮的道德发展将迎来“良好人工智能社会”(Floridi 等人2018),摆脱稀缺和纷争,从而将西方带入目的论的顶峰,正如日本技术专家 Akihito Kodama(2016)所说:重返伊甸园——无需工作就能获得富足,生活没有痛苦——尽管数字化了(Hilton 1964;Noble 1999;Geraci 2010;Diamandis 和 Kotler 2012)。
存在几种不同的方法可以确保未来变革性人工智能 (TAI) 或人工智能超级智能 (ASI) 系统的安全 [Yampolskiy, 2018, Bostrom, 2014],不同方法的支持者对其工作在短期内以及对未来系统的重要性或有用性提出了不同且有争议的主张。高可靠性代理设计 (HRAD) 是最具争议和最雄心勃勃的方法之一,由机器智能研究所 [Soares and Fallenstein, 2017] 等机构倡导,关于它是否以及如何降低未来人工智能系统的风险,人们提出了各种论点。为了减少关于人工智能安全性的辩论中的混乱,我们在此以 Rice [2020] 之前的讨论为基础,该讨论收集并提出了四个核心论点,用于证明 HRAD 是实现人工智能系统安全的途径。我们将这些论点命名为 (1) 附带效用、(2) 消除混淆、(3) 精确规范和 (4) 预测。其中每一个都对未来人工智能系统如何存在风险提出了不同的、部分相互冲突的说法。我们根据对已发表和非正式文献的审查以及咨询就该主题发表立场的专家,解释了这些假设和主张。最后,我们简要概述了反对每种方法和总体议程的论点。
[1] AI HLEG(人工智能高级专家组),“可信人工智能的道德准则”,https://ec.eu-ropa.eu/digital-single-market/en/news/ethics-guidelines-trustworthy-ai。2019.[2] M. Ananny 和 K. Crawford,“无知的观察:透明理想的局限性及其在算法问责制中的应用”,新媒体与社会,第20,号3,页973–989。2018.[3] S. Baum,“人工智能伦理、风险和政策项目调查(2017 年 11 月 12 日)”。全球灾难风险研究所工作文件 17-1。 http://dx.doi.org/10.2139/ssrn.3070741。2017.[4] M. Brent,“仅靠原则无法保证合乎道德的人工智能”。自然机器智能。2019.[5] J. Bryson 和 A. Winfield,“人工智能和自主系统的标准化道德设计”,计算机,卷50,号5,页116-119。2017。[6] V. Charisi、L. Dennis、M. Fisher、R. Lieck、A. Matthias、M. Slav-kovik、J. Loh、A. F. T. Winfield 和 R. Yampolskiy,“走向道德自治系统”,预印本 arXiv:1703.04741。2017。[7] V. Dignum,“负责任的自治”,预印本 arXiv:1706.02513。2017 年。[8] 欧盟委员会,“自治系统 - 报告”。特别欧洲晴雨表 427/Wave EB82.4 – TNS 观点与社会,https://ec.europa.eu/commfrontoffice/publicopinion/ar- chives/ebs/ebs_427_en.pdf。2015 年。[9] A. W. Flores、K. Bechtel 和 C. T. Lowenkamp,“假阳性、假阴性和错误分析:对机器偏见的反驳:全国各地都有软件用于预测未来的罪犯,而且它对黑人有偏见”,联邦缓刑,vol.80,