详细内容或原文请订阅后点击阅览

使用 PCA 进行异常值检测

2024年10月22日 23:03 33 Comments

一种识别数值数据中异常值的令人惊讶的有效方法PCA（主成分分析）通常用于数据科学，通常用于降维（通常用于可视化），但它实际上对于异常值检测也非常有用，我将在本文中描述它。本文延续了我的异常值检测系列，其中还包括关于 FPOF、计数异常值检测器、距离度量学习、共享最近邻和兴奋剂的文章。这还包括我书《Python 中的异常值检测》的另一段摘录。PCA 背后的想法是大多数数据集在某些列中的方差比其他列大得多，并且特征之间也存在相关性。其中一个含义是：为了表示数据，通常不需要使用尽可能多的特征；我们通常可以使用更少的特征（有时要少得多）很好地近似数据。例如，对于包含 100 个特征的数值数据表，我们可能能够使用 30 或 40 个特征（可能更少，也可能少得多）合理地表示数据。为了实现这一点，PCA 将数据转换为不同的坐标系，其中维度称为分量。考虑到我们经常因维数灾难而面临异常值检测问题，使用较少的特征可能会非常有益。如在用于异常值检测的共享最近邻和距离度量学习中所述，使用许多特征可能会使异常值变得

来源:走向数据科学

使用PCA进行离群检测

令人惊讶的有效手段来识别数字数据中的异常值

PCA（原理组件分析）通常用于数据科学，通常用于降低维度（通常用于可视化），但实际上对于离群检测而言也非常有用，我将在本文中进行描述。

此文章继续我的系列在Outier检测中，其中还包括有关FPOF的文章，计数异常值检测器，远程度量学习，共享最近的邻居和兴奋剂。这还包括我在Python的《离群值检测》中的另一个摘录。

fpof 计数异常值检测器距离度量学习共享最近的邻居掺杂 python中的离群值检测

PCA背后的想法是，大多数数据集在某些列中的差异比其他列的差异要大得多，并且功能之间的相关性也具有相关性。这意味着：要表示数据，通常不必使用我们拥有的尽可能多的功能；我们通常可以使用更少的功能来很好地近似数据 - 有时少得多。例如，使用具有100个功能的数字数据表，我们可能能够使用30或40个功能（可能更少，甚至更少）很好地表示数据。

为此，PCA将数据转换为不同的坐标系，其中尺寸称为组件。

组件

鉴于由于维度的诅咒而我们经常面临的问题经常面临，因此使用更少的功能可能非常有益。如在共享最近的邻居和用于离群值检测的距离度量学习中所述，使用许多功能可以使异常检测变得不可靠。在具有高维数据的问题中，它导致点之间的距离计算不可靠（许多离群检测器依赖于这些点）。 PCA可以减轻这些效果。

离群检测的距离度量学习

此处显示一个示例。

所有组件都是不相关的。

PCA背后的假设用于离群值检测

主成分 PCA 通常数据检测器特征学习最近邻共享数据转换使用度量可视化检测意味着距离数据集异常数据表检测系列用于实际上坐标系相关性

使用 PCA 进行异常值检测

令人惊讶的有效手段来识别数字数据中的异常值

PCA背后的假设用于离群值检测

其他外部链接

Tags

XiaoMi-AI