机器学习“降临日历”第 8 天：Excel 中的隔离森林 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

机器学习“降临日历”第 8 天：Excel 中的隔离森林

2025年12月8日 18:26 33 Comments

隔离森林可能看起来很技术性，但它的想法很简单：使用随机分割来隔离点。如果一个点很快被孤立，那么它就是一个异常点；如果需要多次分割，这是正常的。使用微小的数据集1、2、3、9，我们可以清楚地看到逻辑。我们构建几个随机树，测量每个点需要多少个分割，平均深度，并将它们转换为异常分数。短深度的分数接近 1，长深度的分数接近 0。Excel 的实现很痛苦，但算法本身很优雅。它可以扩展到许多特征，不对分布做出任何假设，甚至可以处理分类数据。最重要的是，隔离森林提出了一个不同的问题：不是“什么是正常的？”，而是“我能以多快的速度隔离这一点？”机器学习“降临日历”第 8 天：Excel 中的隔离森林帖子首先出现在走向数据科学上。

来源:走向数据科学

对于决策树，无论是回归还是分类，我们今天将继续使用决策树的原理。

回归分类

而这一次，我们处于无监督学习中，所以没有标签。

该算法称为隔离森林，其思想是构建许多决策树，形成森林。其原理是通过隔离异常来检测异常。

为了让一切都易于理解，让我们看一个我自己创建的非常简单的示例数据集：

1, 2, 3, 9

（因为 TDS 的主编提醒了我有关提及数据来源的法律细节，所以让我正确地声明一下：该数据集完全由我本人拥有版权。这是我手工制作的四点数据集，我很高兴授予每个人将其用于教育目的的权利。）

该数据集的版权归我本人所有

这里的目标很简单：找到异常现象、入侵者。

我知道您已经知道它是哪一个了。

一如既往，我们的想法是将其转变为可以自动检测它的算法。

经典机器学习框架中的异常检测

在进一步讨论之前，让我们退后一步，看看异常检测在全局中的位置。

经典机器学习框架 – 作者提供的图片

左边是监督学习，有标记数据和两种主要类型：

监督学习

目标为数值时的回归目标为分类时的分类

目标为数值时的回归

目标为分类时的分类

这是迄今为止我们使用决策树的地方。

右边是无监督学习，没有标签。

无监督学习

我们不预测任何事情。我们只需操纵观察结果（聚类和异常检测）或操纵特征（降维和其他方法）。

操纵观察结果 操作特征

对于观察级方法，我们有两种可能性：

聚类：对观察进行分组异常检测：为每个观察分配一个分数

聚类：分组观察

操纵聚类可能性数据来源继续使用回归监督正确地入侵者学习观察目的的没有标签机器学习简单的检测分类数据集异常特征对决策树目标

机器学习“降临日历”第 8 天：Excel 中的隔离森林

经典机器学习框架中的异常检测

其他外部链接

Tags

XiaoMi-AI