摘要这项研究研究了六种著名的大型语言模型的道德推理:OpenAI的GPT-4O,Meta的Llama 3.1,困惑,人类的Claude 3.5十四行诗,Google的Gemini和Mismtral 7b。该研究探讨了这些模型如何表达和应用道德逻辑,特别是在响应道德困境(例如手推车问题)和亨氏困境中。偏离了传统的一致性研究,该研究采用了解释性透明框架,促使模型解释了他们的道德推理。通过三种既定的伦理类型学分析了这种方法:结果主义 - 道德分析,道德基础理论和科尔伯格的道德发展阶段。的发现表明,LLM在很大程度上表现出了很大程度上收敛的伦理逻辑,其标志是理性主义者,后果主义者的重点,而决策通常优先考虑危害最小化和公平性。尽管在训练前和模型结构上相似,但跨模型中伦理推理的细微差异和显着差异的混合物反映了微调和训练后过程的差异。模型始终显示出博学,谨慎和自我意识,表现出类似于道德哲学中的研究生级话语的道德推理。在惊人的统一性中,这些系统都将其道德推理描述为比典型的人类道德逻辑的特征更复杂。鉴于人类对此类问题的争论的悠久历史,仍然存在“与谁的价值观保持一致的问题(Brown 1991; Taylor 2023; Klingeford et al。2024)。1987; Sawyer&Jarrahi 2014)。1987; Sawyer&Jarrahi 2014)。生成大语言模型的快速发展使对齐问题成为AI伦理讨论的最前沿 - 具体来说,这些模型是否与人类价值观适当地保持一致(Bostrom,2014; Tegmark 2017; Russell 2017; Russell 2019)。,但我们可能会认为,提出一致性问题的人主要是在适当地呼吁人们注意最大程度地减少对人类生活和环境的身体伤害的更广泛的问题,并最大程度地提高人类在这个不断发展的社会技术领域中寻求目标的能力(Bijker等人,当然,极端的未对准的情况是戏剧性的反对,因为超级智能人工智能模型可能决定控制所有人类系统,消除人类并使世界对人工实体而不是人类的安全。许多认真的分析师深入探讨了这些存在的风险情景(Good 1965; Bostrom 2014;
主要关键词