来自贝叶斯的神经网络观点

了解如何估计神经网络中的模型不确定性。

来源:Another Datum

这是与 Inbar Naor 的联合文章。最初发表于 engineering.taboola.com。

这是与 Inbar Naor 的联合文章。最初发表于 engineering.taboola.com。 Inbar Naor engineering.taboola.com

了解模型不知道的内容对于从业者以及许多不同机器学习应用程序的最终用户来说都很重要。在我们之前的博客文章中,我们讨论了不同类型的不确定性。我们解释了如何使用它来解释和调试我们的模型。

我们之前的博客文章

在这篇文章中,我们将讨论在深度神经网络中获得不确定性的不同方法。让我们从贝叶斯的角度来看待神经网络。

贝叶斯学习 101

贝叶斯统计使我们能够基于证据(数据)和我们对世界的先验知识得出结论。这通常与仅考虑证据的频率统计形成对比。先验知识捕获了我们对哪个模型生成数据的信念,或者该模型的权重是什么。我们可以使用模型权重的先验分布 \(p(w)\) 来表示这种信念。

先验分布 \(p(w)\)

随着我们收集到更多的数据,我们会使用贝叶斯定律更新先验分布并将其转换为后验分布,这个过程称为贝叶斯更新:

后验分布 贝叶斯更新

\(p(w|X,Y) = \frac{p(Y|X,w) p(w)}{p(Y|X)}\)

\(p(w|X,Y) = \frac{p(Y|X,w) p(w)}{p(Y|X)}\)

这个等式引入了贝叶斯学习中的另一个关键因素——可能性,定义为 \(p(y|x,w)\)。该术语表示在给定模型权重 \(w\) 的情况下数据的可能性。

可能性 \(p(y|x,w)\) \(w\)

从贝叶斯角度看神经网络

神经网络的目标是估计可能性 \(p(y|x,w)\)。即使您没有明确这样做,例如当您最小化 MSE 时,也是如此。

\(p(y|x,w)\) 当您最小化 MSE 时

要找到最佳模型权重,我们可以使用最大似然估计 (MLE):

最大似然估计 最大后验估计 \(x\) \(y\) \(X\)