使用 ClassificationThresholdTuner 实现更好的分类结果

用于调整和可视化二分类和多分类问题阈值选择的 Python 工具调整分类问题中使用的阈值(即调整用于决定预测一个类别还是另一个类别的概率的截止值)是一个有时会被遗忘的步骤,但很容易做到并且可以显著提高模型的质量。这是大多数分类问题都应该执行的步骤(根据我们希望优化的内容,有一些例外,如下所述)。在本文中,我们将仔细研究执行此操作时实际发生的情况 — 特别是在多分类中,这可能会有点微妙。我们将介绍我自己编写的开源工具 ClassificationThesholdTuner,它可以自动化并向用户描述该过程。考虑到调整阈值的任务在分类问题中是多么常见,以及不同项目之间的过程通常有多么相似,我已经能够在许多项目中使用此工具。它消除了我为大多数分类问题添加的大量(几乎重复的)代码,并提供了有关调整阈值的更多信息。尽管 ClassificationThesholdTuner 是一个有用的工具,但您可能会发现本文中描述的工具背后的想法更有意义 - 它们很容易复制,对您的分类项目有用。简而言之,ClassificationThesholdTuner 是一个最佳工具

来源:走向数据科学

通过分类thresholdTuner

一种调整和可视化二进制和多类分类问题的阈值选择的python工具

调整分类问题中使用的阈值(也就是说,调整用于预测一类或另一个类别之间的概率的截止值)是有时被遗忘的一步,但很容易做到,并且可以显着提高模型的质量。这是在大多数分类问题上应执行的步骤(除了我们希望优化的内容,以下所述)。

在本文中,我们更仔细地研究了这样做时实际发生的事情 - 特别是多级分类,这可能会有些细微。然后,我们查看一个由我自己编写的开源工具,称为“分类thesholdtuner”,该工具可自动化并描述用户的过程。

分类thesholdtuner

鉴于调整阈值的任务与分类问题的任务多么普遍,以及该过程通常从一个项目到另一个项目的相似程度,我能够在许多项目上使用此工具。它消除了我为大多数分类问题添加的许多(几乎重复的)代码,并提供了更多有关调整我本来可以使用的阈值的信息。

尽管分类TheSholdTuner是一个有用的工具,但您可能会发现本文所描述的工具背后的想法更加相关 - 它们很容易复制在对您的分类项目中有用的地方。

在简而言之,分类tholdtuner是一种最佳设置用于分类问题的阈值并清楚介绍不同阈值的效果的工具。与大多数其他可用选项相比(以及我们很可能为优化阈值而开发的代码),它具有两个主要优势:

分类中使用了什么阈值?

在Scikit-Learn中支持阈值调整

固定的ThresholdClassifier 想法 笔记本