详细内容或原文请订阅后点击阅览
使用 PCA 进行异常值检测
一种识别数值数据中异常值的令人惊讶的有效方法PCA(主成分分析)通常用于数据科学,通常用于降维(通常用于可视化),但它实际上对于异常值检测也非常有用,我将在本文中描述它。本文延续了我的异常值检测系列,其中还包括关于 FPOF、计数异常值检测器、距离度量学习、共享最近邻和兴奋剂的文章。这还包括我书《Python 中的异常值检测》的另一段摘录。PCA 背后的想法是大多数数据集在某些列中的方差比其他列大得多,并且特征之间也存在相关性。其中一个含义是:为了表示数据,通常不需要使用尽可能多的特征;我们通常可以使用更少的特征(有时要少得多)很好地近似数据。例如,对于包含 100 个特征的数值数据表,我们可能能够使用 30 或 40 个特征(可能更少,也可能少得多)合理地表示数据。为了实现这一点,PCA 将数据转换为不同的坐标系,其中维度称为分量。考虑到我们经常因维数灾难而面临异常值检测问题,使用较少的特征可能会非常有益。如在用于异常值检测的共享最近邻和距离度量学习中所述,使用许多特征可能会使异常值变得
来源:走向数据科学使用PCA进行离群检测
令人惊讶的有效手段来识别数字数据中的异常值
PCA(原理组件分析)通常用于数据科学,通常用于降低维度(通常用于可视化),但实际上对于离群检测而言也非常有用,我将在本文中进行描述。
此文章继续我的系列在Outier检测中,其中还包括有关FPOF的文章,计数异常值检测器,远程度量学习,共享最近的邻居和兴奋剂。这还包括我在Python的《离群值检测》中的另一个摘录。
fpof 计数异常值检测器 距离度量学习 共享最近的邻居 掺杂 python中的离群值检测PCA背后的想法是,大多数数据集在某些列中的差异比其他列的差异要大得多,并且功能之间的相关性也具有相关性。这意味着:要表示数据,通常不必使用我们拥有的尽可能多的功能;我们通常可以使用更少的功能来很好地近似数据 - 有时少得多。例如,使用具有100个功能的数字数据表,我们可能能够使用30或40个功能(可能更少,甚至更少)很好地表示数据。
为此,PCA将数据转换为不同的坐标系,其中尺寸称为组件。
组件鉴于由于维度的诅咒而我们经常面临的问题经常面临,因此使用更少的功能可能非常有益。如在共享最近的邻居和用于离群值检测的距离度量学习中所述,使用许多功能可以使异常检测变得不可靠。在具有高维数据的问题中,它导致点之间的距离计算不可靠(许多离群检测器依赖于这些点)。 PCA可以减轻这些效果。
离群检测的距离度量学习此处显示一个示例。