详细内容或原文请订阅后点击阅览
揭示隐藏在大型语言模型中的偏见、情绪、个性和抽象概念
麻省理工学院开发的一种新方法可以根除漏洞并提高法学硕士的安全性和性能。
来源:MIT新闻 - 人工智能到目前为止,ChatGPT、Claude 和其他大型语言模型已经积累了如此多的人类知识,它们远非简单的答案生成器;他们还可以表达抽象概念,例如某些语气、个性、偏见和情绪。然而,从这些模型所包含的知识来看,这些模型究竟如何表示抽象概念并不明显。
现在,来自麻省理工学院和加州大学圣地亚哥分校的团队开发了一种方法来测试大型语言模型 (LLM) 是否包含隐藏的偏见、个性、情绪或其他抽象概念。他们的方法可以将模型中编码感兴趣概念的连接归零。更重要的是,该方法可以操纵或“引导”这些联系,以加强或削弱模型提示给出的任何答案中的概念。
该团队证明他们的方法可以快速根除并引导当今一些最大的法学硕士中的 500 多个一般概念。例如,研究人员可以关注模型对“社会影响者”和“阴谋论者”等个性的表征,以及“对婚姻的恐惧”和“波士顿粉丝”等立场。然后,他们可以调整这些表示,以增强或最小化模型生成的任何答案中的概念。
对于“阴谋论者”概念,该团队成功地在当今最大的视觉语言模型之一中识别了该概念的表示。当他们增强表征,然后提示模型解释阿波罗 17 号拍摄的著名地球“蓝色大理石”图像的起源时,模型以阴谋论者的语气和视角给出了答案。
该团队今天在《科学》杂志上发表的一项研究中发表了他们的发现。该研究的合著者包括加州大学圣地亚哥分校的 Radhakrishnan、Daniel Beaglehole 和 Mikhail Belkin,以及宾夕法尼亚大学的 Enric Boix-Adserà。
黑盒子里的鱼
汇聚一个概念
