Google DeepMind 有了一种新方法来了解人工智能的“思维”

AI 已在药物研发和机器人技术方面取得突破,并正在彻底改变我们与机器和网络的互动方式。唯一的问题是我们不知道它究竟是如何工作的,或者为什么它如此有效。我们有一个不错的想法,但细节太复杂了……

来源:MIT Technology Review _人工智能

7 月,机械可解释性平台 Neuronpedia 与 DeepMind 合作,构建了 Gemma Scope 的演示,您现在就可以试用。在演示中,您可以测试不同的提示,看看模型如何分解您的提示,以及您的提示会激活哪些激活。您还可以摆弄模型。例如,如果您将关于狗的功能调高,然后向模型询问有关美国总统的问题,Gemma 会想办法编入关于狗的随机胡言乱语,或者模型可能会开始对您吠叫。

演示

稀疏自动编码器的一个有趣之处在于它们是无监督的,这意味着它们会自行寻找特征。这导致人们对模型如何分解人​​类概念有了令人惊讶的发现。“我个人最喜欢的功能是畏缩功能,”Neuronpedia 的科学负责人 Joseph Bloom 说。“它似乎出现在对文本和电影的负面批评中。这只是追踪某种程度上非常人性化的东西的一个很好的例子。”

cringe

您可以在 Neuronpedia 上搜索概念,它会突出显示在特定标记或单词上激活了哪些功能,以及每个功能的激活强度。“如果您阅读文本并看到以绿色突出显示的内容,则模型认为 cringe 概念最相关。cringe 最活跃的例子是某人对其他人说教,”Bloom 说。

事实证明,有些功能比其他功能更容易追踪。“您希望为模型找到的最重要的功能之一是欺骗,”Neuronpedia 创始人 Johnny Lin 说。“它不是很容易找到:‘哦,当它对我们撒谎时会触发这个功能。’从我所看到的情况来看,我们无法找到欺骗并禁止它。”

金门克劳德 使用 半透明