Using PCA for Outlier Detection
一种识别数值数据中异常值的令人惊讶的有效方法PCA(主成分分析)通常用于数据科学,通常用于降维(通常用于可视化),但它实际上对于异常值检测也非常有用,我将在本文中描述它。本文延续了我的异常值检测系列,其中还包括关于 FPOF、计数异常值检测器、距离度量学习、共享最近邻和兴奋剂的文章。这还包括我书《Python 中的异常值检测》的另一段摘录。PCA 背后的想法是大多数数据集在某些列中的方差比其他列大得多,并且特征之间也存在相关性。其中一个含义是:为了表示数据,通常不需要使用尽可能多的特征;我们通常可以使用更少的特征(有时要少得多)很好地近似数据。例如,对于包含 100 个特征的数值数据表,我们可