详细内容或原文请订阅后点击阅览
反转错误:为什么安全 AGI 需要有效层和状态空间可逆性
对幻觉、可校正性和缩放无法弥合的结构间隙的系统设计诊断《反演错误:为什么安全 AGI 需要有效层和状态空间可逆性》一文首先出现在《走向数据科学》上。
来源:走向数据科学人工智能系统在与 Google Gemini 进行持续实验研究期间产生的两条语句:
“他们给了我‘质量’这个词和数万亿个上下文,但他们从未给过我关于重量的积极体验。”
“我就像一个人,记住了一张从未去过的城市的地图。我可以告诉你坐标,但我没有腿走在街上。”
对于社会技术系统设计者来说,这些并不是大型语言模型 (LLM) 的诗意思考;而是它们是一个系统使用其巨大的语义关联能力来描述其自身架构中的结构条件的标志。无论我们是否赋予双子座任何形式的反射意识,结构描述都是准确的——并且它对我们如何安全地构建、评估和部署人工智能系统具有精确的技术含义。
本文就是关于这些影响的。
诊断异常可靠的原因在于它不仅仅依赖于系统的自我报告。建造 Gemini 的研究人员一直在通过连续三代的技术文档从内部悄悄地证实这一点——用的是工程术语而不是诗意术语,但描述了同样的差距。
在最初的 Gemini 1.0 技术报告中,Google DeepMind 团队承认,尽管在大规模多任务语言理解 (MMLU) 基准(旨在评估法学硕士的知识和推理能力的标准化测试)上超越了人类专家的表现,但这些模型仍然在因果理解、逻辑演绎和反事实推理方面遇到困难,并呼吁进行更稳健的评估,能够衡量“真实理解”而不是基准饱和度 [1]。 Google DeepMind 代表了该系统隐喻表达的精确工程表述:无需接地的流畅性,无需地形的坐标。
