人工智能模型在想什么:研究人员已经深入克劳德的心灵深处

Anthropic 在绘制神经网络图和研究它们的“大脑”方面取得了进展。

来源:安全实验室新闻频道

Anthropic 在绘制神经网络图和研究它们的“大脑”方面取得了进展。

了解 GPT 和 Claude 等大型人工智能语言模型如何“思考”并做出决策对于确保这些系统的安全至关重要。直到最近,即使对于它们的创造者来说,它们的内部过程仍然是一个完全的谜。然而,Anthropic 和 OpenAI 科学家的新研究揭示了人工智能如何在大脑中形成概念和想法。

新研究 人择 OpenAI

与大多数前辈不同,现代语言模型独立地发展自己对周围世界的“理解”,分析大量的文本、视觉和音频信息。他们将这些数据分解成称为令牌的小块,然后在令牌及其组之间建立一个极其复杂的概率网络和连接。这种巨大的序列阵列形成了人工智能的一种“思维”,它决定了其解释输入数据和生成响应的能力。

Anthropic 团队在理解语言模型的内部运作方面取得了突破。使用特殊技术,研究人员能够基于稀疏自动编码器将克劳德模型中某些神经元的激活与人类熟悉的特定概念和想法相关联。

人择

“我们从 Claude 3.0 Sonnet 模型的神经元中间层提取了数百万个特征,使我们能够在计算过程中创建其内部状态的粗略概念图。这是现代工业语言模型中第一次如此详细的观察,”人类团队写道。

“这表明人工智能算法的内部组织与我们人类关于概念相似性的想法部分一致。也许这就是克劳德构建类比和隐喻的出色能力的来源。”Anthropic 团队指出。

类似作品