用于表格数据的 torch

如何避免死于毒蘑菇。 另外:如何使用 torch 对表格数据进行深度学习,包括分类和数字特征的混合。

来源:RStudio AI博客

对类似图像的数据进行机器学习可以有很多用途:有趣(狗与猫)、对社会有用(医学成像)或对社会有害(监视)。相比之下,表格数据——数据科学的核心——可能看起来更平凡。

此外,如果您对深度学习 (DL) 特别感兴趣,并希望从大数据、大型架构和大型计算中获得额外的好处,那么您更有可能在前者而不是后者上构建令人印象深刻的展示。

那么对于表格数据,为什么不直接使用随机森林、梯度提升或其他经典方法呢?我可以想到至少几个学习表格数据深度学习的理由:

    即使您的所有特征都是区间尺度或序数的,因此“仅”需要某种形式(不一定是线性)回归,应用深度学习也可能带来性能优势,这是因为优化算法、激活函数、层深度等(以及所有这些的相互作用)非常复杂。如果此外还有分类特征,深度学习模型可能会从将这些特征嵌入连续空间中获益,发现独热编码表示中被忽视的相似性和关系。如果大多数特征都是数字或分类的,但 F 列中有文本,G 列中有图像,该怎么办?使用深度学习,不同的模块可以处理不同的模态,将它们的输出输入到一个公共模块中,然后从那里接管。
  • 即使您的所有特征都是区间尺度或序数的,因此“仅”需要某种形式(不一定是线性)回归,应用 DL 也可能带来性能优势,这是由于复杂的优化算法、激活函数、层深度等(以及所有这些的相互作用)。
  • 如果此外还有分类特征,DL 模型可能会从将这些特征嵌入连续空间中获益,发现在独热编码表示中被忽视的相似性和关系。
  • 嵌入

    议程

    数据集

    数据集

    蘑菇 a b c x ( ) ( )