详细内容或原文请订阅后点击阅览
机器学习“降临日历”第 8 天:Excel 中的隔离森林
隔离森林可能看起来很技术性,但它的想法很简单:使用随机分割来隔离点。如果一个点很快被孤立,那么它就是一个异常点;如果需要多次分割,这是正常的。使用微小的数据集1、2、3、9,我们可以清楚地看到逻辑。我们构建几个随机树,测量每个点需要多少个分割,平均深度,并将它们转换为异常分数。短深度的分数接近 1,长深度的分数接近 0。Excel 的实现很痛苦,但算法本身很优雅。它可以扩展到许多特征,不对分布做出任何假设,甚至可以处理分类数据。最重要的是,隔离森林提出了一个不同的问题:不是“什么是正常的?”,而是“我能以多快的速度隔离这一点?”机器学习“降临日历”第 8 天:Excel 中的隔离森林帖子首先出现在走向数据科学上。
来源:走向数据科学对于决策树,无论是回归还是分类,我们今天将继续使用决策树的原理。
回归 分类而这一次,我们处于无监督学习中,所以没有标签。
该算法称为隔离森林,其思想是构建许多决策树,形成森林。其原理是通过隔离异常来检测异常。
为了让一切都易于理解,让我们看一个我自己创建的非常简单的示例数据集:
1, 2, 3, 9
(因为 TDS 的主编提醒了我有关提及数据来源的法律细节,所以让我正确地声明一下:该数据集完全由我本人拥有版权。这是我手工制作的四点数据集,我很高兴授予每个人将其用于教育目的的权利。)
该数据集的版权归我本人所有这里的目标很简单:找到异常现象、入侵者。
我知道您已经知道它是哪一个了。
一如既往,我们的想法是将其转变为可以自动检测它的算法。
经典机器学习框架中的异常检测
在进一步讨论之前,让我们退后一步,看看异常检测在全局中的位置。
左边是监督学习,有标记数据和两种主要类型:
监督学习- 目标为数值时的回归 目标为分类时的分类
这是迄今为止我们使用决策树的地方。
右边是无监督学习,没有标签。
无监督学习我们不预测任何事情。我们只需操纵观察结果(聚类和异常检测)或操纵特征(降维和其他方法)。
操纵观察结果 操作特征对于观察级方法,我们有两种可能性:
- 聚类:对观察进行分组异常检测:为每个观察分配一个分数
