Cross Entropy Loss and Uses in Machine Learning
为什么重要:交叉熵损失是机器学习中广泛使用的损失函数,尤其是在分类模型中。
Loss Function with Cross Entropy made simple
我在 Google 的 Udacity 深度学习课程上找到了这个。 我将详细说明这些笔记,以帮助您更好地理解这个概念。 符号:D(S,L)是交叉熵L是用于训练的标签S(Y)是多项逻辑分类的每个类的概率的 softmax 输出。 为什么叫多项逻辑分类? 让我们看下面的图,有一个输入向量 X,我们用它来训练线性模型,也称为逻辑回归模型 - Wx + b。 这会产生 logit,也就是分数 Y,它进一步输入到 softmax 激活中以获得概率输出。 线性二元分类称为二项式逻辑分类。多项式表示有超过 2 个类(与二项式或二元分类相比)。-------------让我们帮助您理解交叉熵的数学。 它基本上
Cut Your Losses in Large-Vocabulary Language Models
随着语言模型变得越来越大,其词汇量也越来越大。这导致 LLM 在训练过程中的内存占用不成比例地转移到一个层:损失计算中的交叉熵。交叉熵会构建一个包含每对输入标记和词汇项的条目的逻辑矩阵,对于小型模型,其内存消耗量比其余 LLM 的总和高出一个数量级。我们提出了 Cut Cross-Entropy (CCE),这是一种计算交叉熵损失的方法,无需将所有标记的逻辑实现到全局内存中。相反,CCE 仅计算逻辑……
A friendly introduction to Generative Adversarial Networks
到目前为止,我们一直在讨论判别模型,它将输入特征 x 映射到标签 y 并近似 P(y/x)——贝叶斯定律。生成模型则相反,它们试图根据标签预测输入特征。假设给定的标签是 y,我们看到某些特征 x 的可能性有多大。它们近似 P(x 和 y) 的联合概率。来源:Medium / CycleGAN生成对抗网络 (GAN)来源:O'ReillyGAN 的组成部分:1. 生成器——这是一个逆 CNN,当我们沿着 CNN 链前进并在输出处提取特征时,该网络不会压缩信息,而是将随机噪声作为输入特征并在其输出处生成图像。2. 鉴别器——鉴别器是一个 CNN,它查看来自训练集和生成器输出的图像,并将它们分类为真