兴奋剂:一种测试异常值检测器的技术

使用精心制作的合成数据来比较和评估异常值检测器本文继续我的异常值检测系列,继“计数异常值检测器”和“频繁模式异常值因子”之后,还提供了我书“Python 中的异常值检测”的另一段摘录。在本文中,我们将研究测试和评估异常值检测器的问题,这是一个众所周知的难题,并提出一种解决方案,有时称为掺杂。使用掺杂,实际数据行(通常)被随机修改,但修改方式可以确保它们在某些方面可能是异常值,因此应该由异常值检测器检测到。然后,我们可以通过评估探测器检测掺杂记录的能力来评估探测器。在本文中,我们专门研究表格数据,但同样的想法也可以应用于其他模态,包括文本、图像、音频、网络数据等。测试和评估其他类型的模型如果您熟悉异常值检测,那么您至少在某种程度上也熟悉回归和分类问题的预测模型。对于这些类型的问题,我们有标记数据,因此在调整模型时评估每个选项相对简单(选择最佳预处理、特征、超参数等);估计模型的准确性(它在看不见的数据上的表现如何)也相对容易:我们只需使用训练-验证-测试分割,或者更好的是,使用交叉

来源:走向数据科学

掺杂:一种测试异常值检测器的技术

掺杂:一种测试异常值检测器的技术

使用精心制作的合成数据来比较和评估异常值检测器

本文继续我的异常值检测系列文章,继计数异常值检测器和频繁模式异常值因子文章之后,还提供了我书《Python 中的异常值检测》的另一段摘录。

计数异常值检测器 频繁模式异常值因子 Python 中的异常值检测

在本文中,我们研究了测试和评估异常值检测器的问题,这是一个众所周知的难题,并提出了一种解决方案,有时称为掺杂。使用掺杂,真实数据行(通常)被随机修改,但修改方式确保它们在某些方面可能是异常值,因此应该被异常值检测器检测到。然后,我们可以通过评估它们检测掺杂记录的能力来评估检测器。

掺杂。

在本文中,我们专门研究表格数据,但同样的想法也可以应用于其他模态,包括文本、图像、音频、网络数据等。

测试和评估其他类型的模型

可能,如果您熟悉异常值检测,那么您也至少在某种程度上熟悉回归和分类问题的预测模型。对于这些类型的问题,我们有标记数据,因此在调整模型时评估每个选项相对简单(选择最佳预处理、特征、超参数等);并且估计模型的准确性(它在看不见的数据上的表现如何)也相对容易:我们只需使用训练-验证-测试分割,或者更好的是,使用交叉验证。由于数据已标记,我们可以直接看到模型在标记的测试数据上的表现。

因此,评估异常值检测系统非常困难,而且实际上没有好的方法可以做到这一点,至少使用可用的真实数据。

兴奋剂数据记录

  • 特许经营时代
  • 示例