理解监督学习中的最大似然估计

本文在统计学的棱镜下揭开了 ML 学习建模过程的神秘面纱。我们将了解我们对数据的假设如何使我们能够创建有意义的优化问题。

来源:AI夏令营

本文在统计学的棱镜下揭开了机器学习建模过程的神秘面纱。我们将了解我们对数据的假设如何使我们能够创建有意义的优化问题。事实上,我们将推导出常用的标准,例如分类中的交叉熵和回归中的均方误差。最后,我试图回答我遇到的一个面试问题:如果我们在二元分类上使用 MSE 会发生什么?

似然 VS 概率和概率密度

首先,让我们从一个基本问题开始:似然和概率有什么区别?数据 xxx 通过概率 P(x,θ)P(x,\theta)P(x,θ) 或概率密度函数 (pdf) p(x,θ)p(x,\theta)p(x,θ) 连接到可能的模型 θ\thetaθ。

xxx xxx xx xx xx x x x x x x θ\thetaθ θ\thetaθ θ\theta θ\theta θ\theta θ θ \theta θ θ θ P(x,θ)P(x,\theta)P(x,θ) P(x,θ)P(x,\theta)P(x,θ) P(x,θ)P(x,\theta) P(x,θ)P(x,\theta) P(x,θ)P(x,\theta) P(x,θ) P ( x , θ ) P(x,\theta) P(x,θ) P(x,θ) P ( x , θ ) p(x,θ)p(x,\theta)p(x,θ) p(x,θ)p(x,\theta)p(x,θ) p(x,θ)p(x,\theta) p(x,θ) )p(x,θ) p(x,θ)p(x,θ) p(x,θ) p ( x , θ ) p(x,\theta) p(x,θ) p(x,θ) p ( x , θ )

简而言之,pdf 给出了不同可能值出现的概率。pdf 描述了任何给定值的无穷小概率。我们在这里将坚持使用 pdf 符号。对于任何给定的一组参数 θ\thetaθ,p(x,θ)p(x,\theta)p(x,θ) 旨在成为 x 的概率密度函数。

θ\thetaθ θ\thetaθ θ\theta θ\theta θ\theta θ θ \theta θ θ θ p(x,θ)p(x,\theta)p(x,θ) p(x,θ)p(x,\theta) p(x,θ)p(x,\theta) p(x,θ)p(x,\theta) p(x,θ) p ( x , θ ) p(x,\theta) p(x,θ) p(x,θ) p ( x , θ ) 似然性 p(x,θ)p(x,\theta)p(x,θ) 被定义为观测数据的联合密度,作为模型参数的函数。这意味着,对于任何给定的 x,p(x=fixed⁡,θ)p(x=\operatorname{fixed},\theta)p(x=fixed,θ) 可以被视为 θ\thetaθ 的函数。因此,似然函数只是参数 θ\thetaθ 的函数,数据保持为固定常数。

p

( x