基础模型是否可以用于您的生产表格数据?

对在最常见类型的数据集中进行零样本预测的架构的完整回顾。帖子基础模型准备好用于您的生产表格数据了吗?首先出现在《走向数据科学》上。

来源:走向数据科学

是大规模的AI模型,该模型经过大量多样的数据,例如音频,文本,图像或它们的组合。由于这种多功能性,基础模型正在彻底改变自然语言处理,计算机视觉甚至时间序列。与传统的AI算法不同,基础模型提供了现成的预测,而无需从头开始培训每个特定应用程序。通过微调,它们也可以适应更具体的任务。

近年来,我们看到了应用于非结构化数据和时间序列的基础模型的爆炸。其中包括OpenAI的GPT系列和用于文本任务的BERT,用于对象检测,分类和细分的剪辑和SAM,以及PatchTST,Lag-Llama和Moirai-Moe用于时间序列预测。 尽管有这种增长,但由于几个挑战,表格数据的基础模型在很大程度上仍未得到探索。首先,表格数据集本质上是异质的。它们具有特征类型(布尔,分类,整数,浮点)的变化,并且具有数值特征的不同尺度。表格数据还遭受丢失的信息,冗余功能,离群值和不平衡类别的影响。制作表格数据的基础模型的另一个挑战是缺乏高质量的开放数据源。通常,公共数据集很小且嘈杂。以表格基准网站OpenML.org为例。在这里,76%的数据集包含少于10,000行[2]。

Moirai-Moe

TABPFN

让我们从引入小型至中型表格数据的最著名的基础模型开始:TABPFN。该算法由先前的实验室开发。第一个版本于2022年下降[1],但其架构的更新于2025年1月发布[2]。

1/6

后部是预测分布函数

这是通过在合成数据集上训练TABPFN模型的体系结构来计算的。

模型体系结构

TABPFN架构如下图:

x 1 2 y [0.1,0.85,0.05] 85%