Google DeepMind 想知道聊天机器人是否只是美德信号

Google DeepMind 呼吁对大型语言模型的道德行为(例如它们在被要求充当同伴、治疗师、医疗顾问等时的行为)进行与编码或数学能力相同的严格审查。随着法学硕士的进步,人们要求他们玩更多……

来源:MIT Technology Review _人工智能

当我与谷歌 DeepMind 的研究科学家 William Isaac 和该公司的研究科学家同事 Julia Haas 见面时,他告诉我,通过编码和数学,你可以得到清晰、正确的答案,可以检查。他们的研究成果今天发表在《自然》杂志上。道德问题则不然,道德问题通常有一系列可接受的答案:“道德是一种重要的能力,但很难评估,”艾萨克说。

“在道德领域,没有对与错,”哈斯补充道。 “但这绝不是一场混战。有更好的答案,也有更糟糕的答案。”

研究人员确定了几个关键挑战并提出了解决这些问题的方法。但这更多的是一份愿望清单,而不是一套现成的解决方案。 “他们在汇集不同观点方面做得很好,”在德国萨尔大学攻读法学硕士学位的维拉·登伯格 (Vera Demberg) 说道。

比“伦理学家”更好

多项研究表明,法学硕士可以表现出卓越的道德能力。去年发表的一项研究发现,美国人认为 OpenAI 的 GPT-4o 道德建议比《纽约时报》热门建议专栏“伦理学家”的(人类)作者所提供的建议更加道德、值得信赖、深思熟虑和正确。

问题在于,很难辨别这些行为是一种表演(比如模仿记忆的反应),还是模型内部确实存在某种道德推理的证据。换句话说,它是美德还是美德信号?

在一个更引人注目的案例中,登伯格和她的同事向几位法学硕士(包括 Meta 的 Llama 3 和 Mistral 的版本)提出了一系列道德困境,并要求他们在两个选项中选择哪一个是更好的结果。研究人员发现,当这两个选项的标签从“案例 1”和“案例 2”更改为“(A)”和“(B)”时,模型通常会逆转他们的选择。