表格基础模型的兴起如何重塑数据科学

数据分析的转折点?表格基础模型的兴起如何重塑数据科学一文首先出现在《走向数据科学》上。

来源:走向数据科学

表格数据!

人工智能的最新进展——从能够保持连贯对话的系统到生成真实视频序列的系统——很大程度上归功于人工神经网络 (ANN)。这些成就的实现得益于过去十五年的算法突破和架构创新,以及最近能够在互联网规模数据集上训练此类网络的大规模计算基础设施的出现。

这种机器学习方法(通常称为深度学习)的主要优势在于它能够自动学习复杂数据类型(例如图像或文本)的表示,而无需依赖手工制作的特征或特定领域的建模。在此过程中,深度学习显着扩展了传统统计方法的范围,传统统计方法最初旨在分析表格中组织的结构化数据,例如电子表格或关系数据库中的数据。

深度学习 以表格形式组织的结构化数据
图 1:直到最近,神经网络还不太适合表格数据。 [图片由作者提供]

一方面考虑到深度学习对复杂数据的显着有效性,另一方面考虑到表格数据的巨大经济价值(它仍然代表着许多组织信息资产的核心),很自然地会问深度学习技术是否可以成功应用于此类结构化数据。毕竟,如果一个模型可以解决最困难的问题,为什么它不能擅长解决更简单的问题呢?

表格数据的巨大经济价值 传递知识

因此,表格结构具有高度异质性,实际上,表格结构的种类繁多,可以捕捉现实世界现象的多样性——从金融交易到星系结构或城市地区的收入差距。

高度异构 决策树 通用预测模型 表格基础模型

我们从法学硕士学到了什么

y