详细内容或原文请订阅后点击阅览
理解监督学习中的最大似然估计
本文在统计学的棱镜下揭开了 ML 学习建模过程的神秘面纱。我们将了解我们对数据的假设如何使我们能够创建有意义的优化问题。
来源:AI夏令营本文在统计学的棱镜下揭开了机器学习建模过程的神秘面纱。我们将了解我们对数据的假设如何使我们能够创建有意义的优化问题。事实上,我们将推导出常用的标准,例如分类中的交叉熵和回归中的均方误差。最后,我试图回答我遇到的一个面试问题:如果我们在二元分类上使用 MSE 会发生什么?
似然 VS 概率和概率密度
首先,让我们从一个基本问题开始:似然和概率有什么区别?数据 xxx 通过概率 P(x,θ)P(x,\theta)P(x,θ) 或概率密度函数 (pdf) p(x,θ)p(x,\theta)p(x,θ) 连接到可能的模型 θ\thetaθ。
xxx xxx xx简而言之,pdf 给出了不同可能值出现的概率。pdf 描述了任何给定值的无穷小概率。我们在这里将坚持使用 pdf 符号。对于任何给定的一组参数 θ\thetaθ,p(x,θ)p(x,\theta)p(x,θ) 旨在成为 x 的概率密度函数。
θ\thetaθ θ\thetaθ θ\thetap