非参数密度估计:理论和应用

对非参数密度估计的理论和实用介绍。非参数密度估计:理论和应用首先出现在数据科学方面。

来源:走向数据科学

,我们将讨论什么是密度估计及其在统计分析中的作用。我们将分析两种流行的密度估计方法,直方图和内核密度估计器,并分析其理论属性以及它们在实践中的表现。最后,我们将研究如何将密度估计用作分类任务的工具。希望在阅读本文之后,您以对密度估计作为基本统计工具的欣赏以及我们在这里讨论的密度估计方法背后的坚实直觉。理想情况下,本文还将引发人们对了解密度估计的更多兴趣,并将您指向更多资源,以帮助您深入研究,而不是这里讨论的内容!

密度估计 直方图 内核密度估计器

内容:

背景概念

学习/刷新以下概念将有助于充分欣赏本文所讨论的内容。

什么是密度估计?

密度估计与重建随机变化x1,x2,…,xn的样本的随机变量x的概率密度函数有关。

x x1,x 1 2 ,…,xn n

密度估计在统计分析中起着至关重要的作用。它可以用作一种独立的方法,用于分析随机变量分布的性能,例如模态,传播和偏斜。另外,密度估计可以用作进一步的统计分析的手段,例如分类任务,拟合测试和异常检测,仅举几例。

你们中的某些人可能会记得,随机变量X的概率分布可以完全以其累积分布函数(CDF),F(走气)为特征。

f
  • 如果x是一个离散的随机变量,则我们可以通过以下关系从其CDF得出其概率质量函数(PMF),P(P(走气):P(Xi)= F(Xi)= F(Xi)-f(Xi-1),其中XI-1表示x离散分布中最大的x离散分布中最大的x,x的离散值小于xi。
  • p i = f(x ) - f(x