Using PCA for Outlier Detection
一种识别数值数据中异常值的令人惊讶的有效方法PCA(主成分分析)通常用于数据科学,通常用于降维(通常用于可视化),但它实际上对于异常值检测也非常有用,我将在本文中描述它。本文延续了我的异常值检测系列,其中还包括关于 FPOF、计数异常值检测器、距离度量学习、共享最近邻和兴奋剂的文章。这还包括我书《Python 中的异常值检测》的另一段摘录。PCA 背后的想法是大多数数据集在某些列中的方差比其他列大得多,并且特征之间也存在相关性。其中一个含义是:为了表示数据,通常不需要使用尽可能多的特征;我们通常可以使用更少的特征(有时要少得多)很好地近似数据。例如,对于包含 100 个特征的数值数据表,我们可
Doping: A Technique to Test Outlier Detectors
使用精心制作的合成数据来比较和评估异常值检测器本文继续我的异常值检测系列,继“计数异常值检测器”和“频繁模式异常值因子”之后,还提供了我书“Python 中的异常值检测”的另一段摘录。在本文中,我们将研究测试和评估异常值检测器的问题,这是一个众所周知的难题,并提出一种解决方案,有时称为掺杂。使用掺杂,实际数据行(通常)被随机修改,但修改方式可以确保它们在某些方面可能是异常值,因此应该由异常值检测器检测到。然后,我们可以通过评估探测器检测掺杂记录的能力来评估探测器。在本文中,我们专门研究表格数据,但同样的想法也可以应用于其他模态,包括文本、图像、音频、网络数据等。测试和评估其他类型的模型如果您熟