详细内容或原文请订阅后点击阅览
用于可扩展特征工程的 7 个不为人知的 Python 库
本文列出了 7 个不为人所知的 Python 库,它们大规模地突破了特征工程流程的界限。
来源:KDnuggets简介
特征工程是数据科学和机器学习工作流程以及整个人工智能系统中的一个重要过程。它需要从原始数据(通常相当混乱)中构建有意义的解释变量。特征工程背后的过程可能非常简单或过于复杂,具体取决于数据集的数量、结构和异构性以及机器学习建模目标。虽然用于数据操作和建模的最流行的 Python 库(如 Pandas 和 scikit-learn)在某种程度上支持基本和适度可扩展的特征工程,但也有一些专门的库在处理海量数据集和自动化复杂转换方面做得更加出色,但许多人对它们知之甚少。
本文列出了 7 个不为人所知的 Python 库,它们大规模地突破了特征工程流程的界限。
1. 使用 NVTabular 加速
首先,我们有 NVIDIA-Merlin 的 NVTabular:一个旨在将预处理和特征工程应用于数据集的库 - 是的,您猜对了! ——表格。其显着特点是其 GPU 加速方法,旨在轻松操作训练大量深度学习模型所需的超大规模数据集。该库经过专门设计,旨在帮助扩展基于深度神经网络 (DNN) 的现代推荐系统引擎的管道。
2. 使用 FeatureTools 实现自动化
FeatureTools 由 Alteryx 设计,专注于在特征工程流程中利用自动化。该库应用深度特征合成(DFS),这是一种通过数学分析关系创建新的“深度”特征的算法。该库可用于关系数据和时间序列数据,从而可以在这两种数据中以最小的编码负担生成复杂的特征。
此代码摘录显示了在客户数据集上使用 featuretools 库应用 DFS 的示例:
