在阅读本书之前,你可能已经阅读过一些深度学习的经典论文。如果你这样做了,你可能会意识到作者们所说的语言与你所理解的不同;他们使用物理语言。让我们举个例子。以下摘录自该领域的经典论文之一;Salakhutdinov 和 Hinton 2012 年的著作,题为深度玻尔兹曼机的有效学习程序 [1]。这是深度学习领域最重要的论文之一。出版于我们将在后续章节中查看同一著作的较长摘录,现在我们只想确定一个关键术语。为了清晰和重点,作者在以下摘录中以粗体斜体形式显示了关键术语:摘自 Salkakhutdinov 和 Hinton (2012) [1]:无向图模型,例如玻尔兹曼机,在最大似然梯度中有一个额外的、与数据无关的项。该项是对数配分函数的导数,与数据相关项不同,它带有负号。这意味着,如果使用变分近似来估计与数据无关的统计数据,则所得的梯度将倾向于改变参数,从而使近似值变得更糟。这可能解释了使用变分近似来学习玻尔兹曼机缺乏成功的原因。这里的关键术语是对数配分函数,或者更简单、更具体来说,是配分函数。配分函数的概念是统计力学的核心和唯一性。如果我们能够理解这一点,我们就有一个切入点来开拓和理解深度学习的全部工作领域。
主要关键词