详细内容或原文请订阅后点击阅览
简化交叉熵损失函数
我在 Google 的 Udacity 深度学习课程上找到了这个。 我将详细说明这些笔记,以帮助您更好地理解这个概念。 符号:D(S,L)是交叉熵L是用于训练的标签S(Y)是多项逻辑分类的每个类的概率的 softmax 输出。 为什么叫多项逻辑分类? 让我们看下面的图,有一个输入向量 X,我们用它来训练线性模型,也称为逻辑回归模型 - Wx + b。 这会产生 logit,也就是分数 Y,它进一步输入到 softmax 激活中以获得概率输出。 线性二元分类称为二项式逻辑分类。多项式表示有超过 2 个类(与二项式或二元分类相比)。-------------让我们帮助您理解交叉熵的数学。 它基本上是网络生成的输出和实际标签的函数。请记住,由于使用了讨厌的对数项,因此它是不对称的。我们取 softmax 输出的对数而不是标签的对数的原因是标签是独热的(包含一系列 0 和一个 1)。0 的对数渐近趋向于 -无穷大,如下所示 - 当您对通过网络的每个有效输入和标签执行此操作时,损失函数看起来就是这样。现在我们需要使用这个损失函数在整个网络上取平均值来调整大矩阵 W(网络权重)。一种方法是使用
来源:Ankit-AI | 分享人工智能我在 Google 的 Udacity 深度学习课程上找到了这个。我将详细说明这些笔记,以帮助您更好地理解这个概念。
符号:
D(S,L) 是交叉熵
L 是用于训练的标签
S(Y) 是多项逻辑分类中每个类的概率的 softmax 输出。
为什么称之为多项逻辑分类?
为什么称之为多项逻辑分类?让我们看下面的图,有一个输入向量 X,我们用它来训练线性模型(也称为逻辑回归模型)-Wx + b。这会产生 logit 又名分数 Y,进一步输入到 softmax 激活中以获得概率输出。
线性 物流线性二元分类称为二项式物流分类。
多项式表示存在超过 2 个类别(与二项式或二元分类相比)。
-------------
让我们帮助您理解交叉熵的数学原理。它基本上是网络生成的输出和实际标签的函数。请记住,由于使用了讨厌的对数项,因此它是不对称的。我们取 softmax 输出的对数而不是标签的原因是标签是独热的(包含一系列 0 和一个 1)。0 的对数渐近趋向于负无穷,如下所示 -
当您对通过网络的每个有效输入和标签执行此操作时,损失函数就是这样的。
现在我们需要使用这个在整个网络中取平均值的损失函数来调整大矩阵 W(网络权重)。一种方法是使用梯度下降。
假设您的网络有 2 个权重(2 维空间),我们需要找到该问题的最佳数值解,其中损失函数的值对于一组权重 1 和权重 2 的值最小(内红圈)。我们怎么做呢?
我将用另一篇包含更多数学知识的文章来补充这篇文章,敬请期待 :)