然而,政府机构应该明白,尽管人工智能功能强大,但它只是一种工具。除了被编程报告的内容之外,它无法理解任何东西。牛津大学教授尼克·博斯特罗姆用他著名的“回形针最大化器”思想实验生动地说明了这一点。想象一下,人工智能开发人员构建了一种算法,其无害目标是收集最大数量的回形针。自学习算法不断找到收集回形针的新方法。首先,该算法从办公用品柜中收集纸箱中的回形针;然后收集办公室沙发或桌子下放错位置的回形针。为了最大限度地增加回形针的数量,它开始用电气管道金属和其他镀锌钢制造回形针,并最终熔化地球上所有的金属来制造回形针。4
自上而下的机器人安全解决方案的另一个问题是,我们需要选择在机器人中实施的规则。机器人的好处和坏行为是什么?这是一个挑战,因为即使人类之间的正确行为也存在很大的分歧。在机器人伦理和人类伦理学中都深入讨论了什么使正确行为的问题。在机器人伦理中不断弹出的一个建议是使用以艾萨克·阿西莫夫(Isaac Asimov)的三个机器人法则(Asimov 1942),直接或以某种修改的形式使用。甚至欧洲议会也提到了这些法律(Mokhtarian 2018)。在学术文献中,阿西莫夫的定律经常在表面上被提及,也许是因为它已成为该领域的传统,或者是向阿西莫夫(Asimov)致敬,成为该领域的先驱(例如,Deng 2015; Grech&Scerri 2020; Meghardi&Alemi 2018; Narain等。 2019)。 有时提到这三个法律只是被批评,有时但并不总是与批评作者建议的更现实的规则形成鲜明对比(例如 Anderson&Anderson 2010; Awad等。 2018; Bostrom 2014;克拉克1993,1994; Evans 2013; Hirose 1996; 2011年Howlader;雷曼 - 威尔西格1981; Leigh Anderson 2008; Murphy&Woods 2009;船员2020; Wallach&Allen 2009)。 在其他情况下,实际上建议它们至少是解决方案的一部分,无论是其原始形式还是以某种修改的形式(例如) Balkin 2017; Bizony 2015; Feitelson 2007; Kaminka等。 2017; Li等。 2022;罗伯逊2020; Salge&Polani 2017; Schurr等。Deng 2015; Grech&Scerri 2020; Meghardi&Alemi 2018; Narain等。2019)。有时提到这三个法律只是被批评,有时但并不总是与批评作者建议的更现实的规则形成鲜明对比(例如Anderson&Anderson 2010; Awad等。 2018; Bostrom 2014;克拉克1993,1994; Evans 2013; Hirose 1996; 2011年Howlader;雷曼 - 威尔西格1981; Leigh Anderson 2008; Murphy&Woods 2009;船员2020; Wallach&Allen 2009)。 在其他情况下,实际上建议它们至少是解决方案的一部分,无论是其原始形式还是以某种修改的形式(例如) Balkin 2017; Bizony 2015; Feitelson 2007; Kaminka等。 2017; Li等。 2022;罗伯逊2020; Salge&Polani 2017; Schurr等。Anderson&Anderson 2010; Awad等。2018; Bostrom 2014;克拉克1993,1994; Evans 2013; Hirose 1996; 2011年Howlader;雷曼 - 威尔西格1981; Leigh Anderson 2008; Murphy&Woods 2009;船员2020; Wallach&Allen 2009)。在其他情况下,实际上建议它们至少是解决方案的一部分,无论是其原始形式还是以某种修改的形式(例如Balkin 2017; Bizony 2015; Feitelson 2007; Kaminka等。 2017; Li等。 2022;罗伯逊2020; Salge&Polani 2017; Schurr等。Balkin 2017; Bizony 2015; Feitelson 2007; Kaminka等。2017; Li等。2022;罗伯逊2020; Salge&Polani 2017; Schurr等。2007; van dang等。 2018; Vanderelst&Winfield 2018)。2007; van dang等。2018; Vanderelst&Winfield 2018)。
首先,上述论点设想的人工智能系统至少具有人类水平的认知能力,但其行为方式让我们觉得反复无常且在道德上格格不入,追求无限的权力以实现任意目标。这令人惊讶。也许这也是难以置信的。随着人工智能系统发展出与我们类似的认知能力,它们的动机也可能会趋同于类似我们的东西(参见 Müller 和 Cannon 2021)。灾难性的权力追求可能会很少见。与这种思路相反,正交论认为,任意高水平的智力可以与或多或少任何最终目标相结合(Bostrom 2012)。如果这是真的,那么一个系统就可以超级智能,而无需受到有利于人类繁荣的关注的驱动。我们将在第 3 节中进一步讨论这些问题。
人工智能确实会变得无处不在。关于人工智能是好是坏的讨论已经不再有意义了。现在是讨论如何根据国家需求塑造人工智能发展的时候了(Kalluri,2020 年)。围绕核武器的地缘政治辩论已经转向人工智能。在这种前所未有的变化时代,需要对人工智能的社会政治影响进行分析。《人工智能时代:我们的人类未来》一书让公众了解人工智能对社会和全球政治的影响。有趣的是,它建立在《第三次浪潮》(Toffler,1981 年)、《未来政治》(Susskind,2018 年)和《超级智能》(Bostrom,2014 年)中提出的结论之上。它重申了人工智能可能在政治上造成破坏的论点。验证这一论点需要外交事务和技术发展方面的专业知识,而《人工智能时代》的作者符合这些条件。
传统观点认为,技术进步是由加速回报定律(“LOAR”)驱动的。1 LOAR 应用于信息技术,即摩尔定律,预测技术进步将呈指数趋势,最终达到技术奇点。2 这一观念已发展成为一种名为技术乌托邦主义的思想流派。3 技术乌托邦主义指的是数字生活是人类宇宙进化中自然而理想的下一步,这肯定是件好事。4 由于技术乌托邦主义,大多数技术文献本质上都是乐观的,无论是在结果方面还是在进步速度方面。例如,牛津大学教授尼克·博斯特罗姆 (Nick Bostrom) 认为,人工智能技术的指数级增长将很快导致超级智能机器的出现。5 此外,谷歌的雷·库兹韦尔 (Ray Kurzweil) 认为,技术奇点(即利用计算技术对人类大脑进行逆向工程的时间)仅需十年即可实现。6 围绕区块链技术的乐观情绪也不例外。
摘要这项研究研究了六种著名的大型语言模型的道德推理:OpenAI的GPT-4O,Meta的Llama 3.1,困惑,人类的Claude 3.5十四行诗,Google的Gemini和Mismtral 7b。该研究探讨了这些模型如何表达和应用道德逻辑,特别是在响应道德困境(例如手推车问题)和亨氏困境中。偏离了传统的一致性研究,该研究采用了解释性透明框架,促使模型解释了他们的道德推理。通过三种既定的伦理类型学分析了这种方法:结果主义 - 道德分析,道德基础理论和科尔伯格的道德发展阶段。的发现表明,LLM在很大程度上表现出了很大程度上收敛的伦理逻辑,其标志是理性主义者,后果主义者的重点,而决策通常优先考虑危害最小化和公平性。尽管在训练前和模型结构上相似,但跨模型中伦理推理的细微差异和显着差异的混合物反映了微调和训练后过程的差异。模型始终显示出博学,谨慎和自我意识,表现出类似于道德哲学中的研究生级话语的道德推理。在惊人的统一性中,这些系统都将其道德推理描述为比典型的人类道德逻辑的特征更复杂。鉴于人类对此类问题的争论的悠久历史,仍然存在“与谁的价值观保持一致的问题(Brown 1991; Taylor 2023; Klingeford et al。2024)。1987; Sawyer&Jarrahi 2014)。1987; Sawyer&Jarrahi 2014)。生成大语言模型的快速发展使对齐问题成为AI伦理讨论的最前沿 - 具体来说,这些模型是否与人类价值观适当地保持一致(Bostrom,2014; Tegmark 2017; Russell 2017; Russell 2019)。,但我们可能会认为,提出一致性问题的人主要是在适当地呼吁人们注意最大程度地减少对人类生活和环境的身体伤害的更广泛的问题,并最大程度地提高人类在这个不断发展的社会技术领域中寻求目标的能力(Bijker等人,当然,极端的未对准的情况是戏剧性的反对,因为超级智能人工智能模型可能决定控制所有人类系统,消除人类并使世界对人工实体而不是人类的安全。许多认真的分析师深入探讨了这些存在的风险情景(Good 1965; Bostrom 2014;
罗素的工作旨在确保人类和越来越有能力的AI系统的安全和有益共存。罗素(Russell)创造的核心问题是图灵,维纳(Wiener),明斯基(Minsky)和博斯特罗姆(Bostrom)等:一种功能强大的优化器,其目标与“人类的最大利益”不一致可能导致不可逆转的局势,在这种情况下,这些利益不再持续下去。Russell的解决方案是从他先前引入反向加固学习中借用的,它是自1950年代以来绝大多数AI研究的核心假设:假设AI系统具有固定的优化目标。这个假设是为解决问题,计划,MDP,强化学习等所有工作的基础,因为AI进入了真实的开放式世界。Russell提出,AI应作为“援助游戏”,其中AI系统的唯一目标是进一步的人类利益,但明确不确定这些利益是什么。关键结果是援助游戏求解器对人类非常有益。通过他的书《人类兼容》,《 BBC Reith讲座》和许多其他出版物,罗素一直是建立AI安全领域的领先人物。
对人工智能(AI)及其潜在存在风险的关注引起了极大的关注,诸如Geoffrey Hinton和Dennis Hassabis之类的数字提倡对灾难性结果进行强大的保障措施。尼克·博斯特罗姆(Nick Bostrom)和麦克斯·蒂格马克(Max Tegmark)等知名学者通过探索超智能AI的长期影响进一步推动了话语。然而,这种存在的风险叙事面临批评,特别是在流行媒体中,诸如Timnit Gebru,Melanie Mitchell和Nick Clegg之类的学者认为,除其他外,它分散了当前问题的注意力。尽管媒体报道广泛,但对存在风险话语的怀疑却在学术文献中受到了严格的治疗有限。解决这种不平衡,本文重建并评估了三个反对存在风险观点的共同参数:分心论点,人类脆弱的论点以及干预论点的检查点。通过系统地重建和评估这些论点,本文旨在为更平衡的学术话语和对AI的进一步研究提供基础。
弗洛伊德(1961)曾有句名言:文明表面上是为了保护人类免遭苦难,但矛盾的是,它却是不幸的一大根源。同样,人工智能既被吹捧为人类最大问题的解决方案,又被谴责为人类有史以来面临的最大问题之一——甚至可能是最后一个问题。许多专家认为,人工智能对人类在这个星球上的生存构成了威胁:如果不是核战争、气候灾难或另一场全球流行病,那么预示世界末日的将是“超级智能”机器(Barrat 2013;Bostrom 2014;Clark 2014;Yampolskiy 2015;Müller 2016;Cava 2018;Russell 2019)。也可能不是。其他人工智能倡导者声称,新一轮的道德发展将迎来“良好人工智能社会”(Floridi 等人2018),摆脱稀缺和纷争,从而将西方带入目的论的顶峰,正如日本技术专家 Akihito Kodama(2016)所说:重返伊甸园——无需工作就能获得富足,生活没有痛苦——尽管数字化了(Hilton 1964;Noble 1999;Geraci 2010;Diamandis 和 Kotler 2012)。
摘要:本研究关注的是读心术机器将如何连接起来,最初是通过弱人工智能,然后是与强人工智能相结合,这一方面将不再像现在这样具有简单的医疗作用,而是监视和监控个人——这一方面正引领我们走向未来的技术全景奇点。因此,本文的总体目标是提出人性的本体论稳定性问题,在读心术机器的技术奇点范围内,这会导致自主性的丧失和人类思想自由度的降低。在这个范式中,未来技术奇点时代的假设被预示为各种因素的累积,其中人工智能在人类监督的技术全景系统中以权力表现/施加的新世界秩序的形式相对于人类主体占据主导地位——即“单例”。理论目标分析了福柯全景机制(Foucault,1995、2003、2006、2008)的“去领土化”现象(Deleuze & Guattari,2000、2005)——该机制基于“生物权力”的“生命政治”体系——及其在技术全景奇点“领土”中的“再领土化”,其中强人工智能“单例”场景(Bostrom,2004、2006)代表了存在向硬技术决定论的异化。