Sklearn关键词检索结果

如何用dask缩放sklearn

How to Scale Sklearn with Dask

以下是DASK应用Sklearn的构建块,通过高性能并行计算将ML建模工作流程提升到新的可扩展性

从头开始​​在 Polars 中构建决策树

Build a Decision Tree in Polars from Scratch

决策树算法一直让我着迷。它们易于实现,并且在各种分类和回归任务中取得了良好的效果。结合 boosting,决策树在许多应用中仍然是最先进的。直到今天,sklearn、lightgbm、xgboost 和 catboost 等框架都做得非常好。然而,在过去的几个月里,[…]The post Build a Decision Tree in Polars from Scratch 最先出现在 Towards Data Science 上。

一种训练-测试-验证分割数据集的非常规方法

An Off-Beat Approach to Train-Test-Validation Split Your Dataset

确保小数据集分割的分布完整性使用 Microsoft Designer 生成我们都需要对总体进行抽样,以进行统计分析并获得见解。当我们这样做时,目的是确保样本的分布与总体的分布紧密匹配。为此,我们有各种方法:简单随机抽样(其中每个总体成员都有相同的被选中的机会)、分层抽样(包括将总体划分为子组并从每个子组中抽样)、聚类抽样(其中将总体划分为簇并随机选择整个簇)、系统抽样(包括选择总体的每第 n 个成员)等。每种方法都有其优势,并根据研究的特定需求和特点进行选择。在本文中,我们不会关注抽样方法本身,而是关注使用这些概念将用于机器学习方法的数据集拆分为训练-测试-验证集。这些方法适用于所有类型的表

BanditPAM:通过多臂老虎机进行几乎线性时间的 k-medoids 聚类

BanditPAM: Almost Linear-Time k-medoids Clustering via Multi-Armed Bandits

TL;DR想要比 \(k\)-means 更好的东西吗?我们最先进的 NeurIPS \(k\)-medoids 算法 BanditPAM 现已公开!\(\texttt{pip install banditpam}\),您就可以开始了!与 \(k\)-means 问题一样,\(k\)-medoids 问题是一个聚类问题,我们的目标是将数据集划分为不相交的子集。然而,在 \(k\)-medoids 中,我们要求聚类中心必须是实际数据点,这允许对聚类中心进行更好的解释。\(k\)-medoids 还可以更好地处理任意距离度量,因此如果您使用 \(L_1\) 之类的度量,您的聚类对异常值会更稳健。尽

BanditPAM:通过多臂老虎机进行几乎线性时间的 k-medoids 聚类

BanditPAM: Almost Linear-Time k-medoids Clustering via Multi-Armed Bandits

TL;DR想要比 \(k\)-means 更好的东西吗?我们最先进的 NeurIPS \(k\)-medoids 算法 BanditPAM 现已公开!\(\texttt{pip install banditpam}\),您就可以开始了!与 \(k\)-means 问题一样,\(k\)-medoids 问题是一个聚类问题,我们的目标是将数据集划分为不相交的子集。然而,在 \(k\)-medoids 中,我们要求聚类中心必须是实际数据点,这允许对聚类中心进行更好的解释。\(k\)-medoids 还可以更好地处理任意距离度量,因此如果您使用 \(L_1\) 之类的度量,您的聚类可以对异常值更具鲁棒