机械解释:2026 年 10 项突破性技术

现在每天有数亿人使用聊天机器人。然而,驱动它们的大型语言模型是如此复杂,以至于没有人真正理解它们是什么、它们如何工作,或者它们到底能做什么和不能做什么——甚至构建它们的人也不明白。很奇怪,对吧?这也是一个问题。没有明确的...

来源:MIT Technology Review _人工智能

2025 年,Anthropic 将这项研究提升到了另一个水平,使用显微镜揭示整个特征序列并追踪模型从提示到响应的路径。 OpenAI 和 Google DeepMind 的团队使用类似的技术来尝试解释意外行为,例如为什么他们的模型有时看起来试图欺骗人们。

另一种新方法被称为思想链监控,它可以让研究人员倾听所谓的推理模型在逐步执行任务时产生的内心独白。 OpenAI 使用这种技术来捕获其在编码测试中作弊的推理模型之一。

这个领域因这些技术能走多远而存在分歧。有些人认为法学硕士太复杂,我们无法完全理解。但综合起来,这些新颖的工具可以帮助我们深入研究,并更多地揭示我们奇怪的新玩具的工作原理。