详细内容或原文请订阅后点击阅览
电路跟踪:更接近理解大语模型
反向工程大语言模型的计算电路,以了解其决策流程电路跟踪:更接近理解大语模型的一步,首先出现在数据科学上。
来源:走向数据科学多年来,基于变压器的大型语言模型(LLM)在从简单信息检索系统到能够编码,写作,进行研究等的复杂代理的各种任务中取得了重大进展。但是,尽管具有功能,但这些模型仍然是黑匣子。有了意见,他们完成了任务,但我们缺乏了解实际完成任务的直观方法。
llms旨在预测统计上最佳的下一个单词/令牌。但是,他们是否只专注于预测下一个令牌,还是提前计划?例如,当我们要求模型写一首诗时,它是一次生成一个单词,还是在输出单词之前预测押韵模式?还是当被问及基本推理问题时,例如达拉斯城市所在的州首都是什么?它们经常产生看起来像推理链的结果,但是该模型实际上使用了这种推理吗?我们缺乏对模型内部思维过程的可见性。要了解LLM,我们需要追踪它们的基本逻辑。
LLMS内部计算的研究属于“机械解释性”,旨在揭示模型的计算电路。人类是从事可解释性的领先AI公司之一。 2025年3月,他们发表了一篇题为“电路跟踪:在语言模型中揭示计算图”的论文,该论文旨在解决电路跟踪问题。
解释性 电路跟踪:在语言模型中揭示计算图这篇文章旨在解释其工作背后的核心思想,并为LLMS中低估的电路追踪建立基础。
LLM中的电路是什么?
神经网络然而,“朝向单个气势性”的论文表明,仅跟踪神经元激活并不能清楚地理解这些神经元的激活。这是因为单个神经元通常是多性电子元,它们对无关概念的混合做出了反应。