PyTorch Tabular:评论

快速启动和运行的概述,避免混淆照片由 Pao Dayag 在 Unsplash 上拍摄我们时不时都会考虑是否要尝试新的工具或尝试一个包,而这其中存在一些风险。如果该工具无法满足我的需求,或者需要几天时间才能运行,或者需要我没有的复杂知识,该怎么办?今天,我将分享我自己使用 PyTorch Tabular 启动和运行模型的经验的简单回顾,并提供代码示例,这些示例应该可以帮助其他考虑使用它的用户以最少的麻烦快速上手。这个项目始于一个相当高维的 CatBoost 模型,这是一个具有多类分类结果的监督学习用例。数据集有大约 30 个高度不平衡的类,我将在以后的文章中更详细地描述它们。我想尝试将神经网络应用于相同的用例,看看性能可能会有什么变化,我发现 PyTorch Tabular 是一个不错的选择。当然,还有其他方法可以将 NN 应用于表格数据,包括自己使用基础 PyTorch,但在顶层设计一层以适应您的特定问题案例通常会使开发变得更容易、更快。PyTorch Tabular 让您不必考虑如何将数据框转换为张量之类的事情,并为您提供了模型自定义的直接访问点。入门文档位于 https://pytorch-tabular.readthedocs.io/en

来源:走向数据科学

PyTorch Tabular:评论

PyTorch Tabular:评论

快速启动和运行并避免混淆的概述

照片由 Pao Dayag 在 Unsplash 上拍摄
照片由 Pao Dayag 在 Unsplash 上拍摄
Pao Dayag Unsplash

我们时不时都会考虑是否要尝试新的工具或尝试一个包,而这其中存在一些风险。如果该工具无法满足我的需求,或者需要几天时间才能运行,或者需要我没有的复杂知识,该怎么办?今天,我将分享我自己使用 PyTorch Tabular 启动和运行模型的经验的简单评论,并提供代码示例,这些示例应该可以帮助其他考虑使用它的用户以最少的麻烦快速上手。

该项目始于一个相当高维的 CatBoost 模型,这是一个具有多类分类结果的监督学习用例。数据集有大约 30 个高度不平衡的类,我将在以后的文章中更详细地描述。我想尝试将神经网络应用于相同的用例,看看我可能会遇到哪些性能变化,我发现 PyTorch Tabular 是一个不错的选择。当然,还有其他将 NN 应用于表格数据的替代方案,包括自己使用基础 PyTorch,但在顶层设计一层以适应您的特定问题案例通常会使开发变得更容易、更快。PyTorch Tabular 让您不必考虑如何将数据框转换为张量之类的事情,并为您提供了模型自定义的直接访问点。

入门

https://pytorch-tabular.readthedocs.io/en/latest/ 上的文档非常容易阅读和理解,尽管主页指向文档的开发版本,所以如果您从 pypi 安装,请记住这一点。

https://pytorch-tabular.readthedocs.io/en/latest/

设置

当您开始构建代码时,您将创建 PyTorch Tabular 训练函数所需的几个对象:

DataConfig TrainerConfig OptimizerConfig 默认为