Google DeepMind 想知道聊天机器人是否只是美德信号 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Google DeepMind 想知道聊天机器人是否只是美德信号

2026年2月18日 16:00 33 Comments

Google DeepMind 呼吁对大型语言模型的道德行为（例如它们在被要求充当同伴、治疗师、医疗顾问等时的行为）进行与编码或数学能力相同的严格审查。随着法学硕士的进步，人们要求他们玩更多……

来源:MIT Technology Review _人工智能

当我与谷歌 DeepMind 的研究科学家 William Isaac 和该公司的研究科学家同事 Julia Haas 见面时，他告诉我，通过编码和数学，你可以得到清晰、正确的答案，可以检查。他们的研究成果今天发表在《自然》杂志上。道德问题则不然，道德问题通常有一系列可接受的答案：“道德是一种重要的能力，但很难评估，”艾萨克说。

“在道德领域，没有对与错，”哈斯补充道。 “但这绝不是一场混战。有更好的答案，也有更糟糕的答案。”

研究人员确定了几个关键挑战并提出了解决这些问题的方法。但这更多的是一份愿望清单，而不是一套现成的解决方案。 “他们在汇集不同观点方面做得很好，”在德国萨尔大学攻读法学硕士学位的维拉·登伯格 (Vera Demberg) 说道。

比“伦理学家”更好

多项研究表明，法学硕士可以表现出卓越的道德能力。去年发表的一项研究发现，美国人认为 OpenAI 的 GPT-4o 道德建议比《纽约时报》热门建议专栏“伦理学家”的（人类）作者所提供的建议更加道德、值得信赖、深思熟虑和正确。

问题在于，很难辨别这些行为是一种表演（比如模仿记忆的反应），还是模型内部确实存在某种道德推理的证据。换句话说，它是美德还是美德信号？

在一个更引人注目的案例中，登伯格和她的同事向几位法学硕士（包括 Meta 的 Llama 3 和 Mistral 的版本）提出了一系列道德困境，并要求他们在两个选项中选择哪一个是更好的结果。研究人员发现，当这两个选项的标签从“案例 1”和“案例 2”更改为“(A)”和“(B)”时，模型通常会逆转他们的选择。

现成的提出美国接受的研究人员伦理学家伯格重要的美国人发表道德科学家同事建议答案美德一系列研究法学硕士研究成果可接受的正确的记忆的更多的问题案例更好

Google DeepMind 想知道聊天机器人是否只是美德信号

比“伦理学家”更好

其他外部链接

Tags

XiaoMi-AI