详细内容或原文请订阅后点击阅览
人类现在可以跟踪大语言模型的奇异内部工作
AI公司的人类拟人化已经开发了一种在大型语言模型中凝视的方法,并在响应中观察其所做的事情,从而揭示了有关该技术如何运作的关键新见解。要点:LLM甚至比我们想象的陌生。拟人团队对一些违反直觉感到惊讶……
来源:MIT Technology Review _人工智能奇怪的行为
so:他们发现了什么?人类观察了克劳德(Claude)中的10种不同行为。一个涉及使用不同语言的使用。克劳德(Claude)是否有说法语的一部分,另一部分会说中文,依此类推?
团队发现Claude使用独立于任何语言的组件来回答问题或解决问题,然后在回答时选择了特定的语言。问它“小的相反?”用英语,法语,中文和克劳德(Claude)将首先使用与“小”和“对立”相关的语言中性组成部分来提出答案。只有这样,它才能选择一种可以回复的特定语言。这表明大型语言模型可以用一种语言学习东西,并用其他语言应用它们。
拟人化还研究了克劳德如何解决简单的数学问题。该团队发现,该模型似乎已经开发了自己的内部策略,这些策略与培训数据中会看到的模型不同。要求克劳德(Claude)添加36和59,该模型将通过一系列奇数步骤,包括首先添加近似值(添加40ish和60ish,添加57ish和36ish)。在其过程结束时,它提出了92ish的价值。同时,另一个步骤的序列重点介绍了最后一个数字6和9,并确定答案必须以5结束。将其与92ish一起放在95中。
但是,如果您然后问克劳德如何工作,它将说类似的话:“我添加了(6+9 = 15),携带了1,然后添加了10s(3+5+1 = 9),导致95。”换句话说,它为您提供了一种在网上到处发现的常见方法,而不是实际做的。是的! LLM很奇怪。 (并且不值得信任。)
人类