不要浪费您的标签异常:3种实用策略来提高异常检测性能

一些标签在异常检测方面走了很长一段路,帖子不会浪费您的标签异常:3种实用策略来提高异常检测性能,首先是迈向数据科学。

来源:走向数据科学

算法假定您正在使用完全未标记的数据。

但是,如果您实际上已经解决了这些问题,那么您知道现实通常是不同的。在实践中,异常检测任务通常至少有一些标记的示例,也许是从过去的调查中,或者您的主题专家标记了几个异常,以帮助您更清楚地定义问题。

在这些情况下,如果我们忽略了这些有价值的标签示例并坚持那些纯粹无监督的方法,我们将在桌子上留下资金。

因此,问题是,我们如何实际利用那些标有异常的标记?

如果您搜索学术文献,您会发现它充满了巧妙的解决方案,尤其是随着所有新的深度学习方法的出现。但是,让我们成为现实,大多数解决方案都需要采用具有陡峭学习曲线的全新框架。它们通常涉及大量的不直观的超级参数调整,并且在您的特定数据集中可能表现不佳。

在这篇文章中,我想分享三种实用策略,您可以立即使用这些策略来提高您的异常检测性能。无需花哨的框架。我还将浏览一个关于欺诈检测数据的具体示例,以便您可以看到其中一种方法在实践中是如何进行的。

最后,您将有几种可行的方法来更好地利用有限的标记数据,以及可以适应自己的用例的现实世界实现。

1。阈值调整

1。阈值 调整

让我们从最低的果实开始。

最无监督的模型输出连续异常得分。完全取决于您决定在哪里绘制线路以区分“正常”和“异常”课程。

异常得分

关键见解是,您可以使用那些标记的呼吸器作为验证集,以在不同的阈值选择下量化检测性能。

这是实践中的工作方式:

步骤(1) 排除 步骤(2) 专业提示 引导程序 步骤(3)

✨外卖

2。模型选择

i 1 0