数据准备——发现、集成、转换、清理和注释数据的过程——是最古老、最难但又不可避免的数据管理问题之一。不幸的是,众所周知,数据准备是迭代的,需要高昂的人力成本,而且容易出错。人工智能 (AI) 的最新进展在许多数据准备任务上显示出非常有希望的结果。从高层次上讲,数据准备人工智能 (AI4DP) 应该具备以下能力。首先,人工智能模型应该捕捉现实世界的知识,以解决各种任务。其次,轻松适应新的数据集/任务非常重要。第三,数据准备是一个复杂的流程,有许多操作,这会导致有大量的候选者需要选择最优的,因此有效和高效地探索大量可能的流程空间至关重要。在本教程中,我们将介绍三个重要主题来解决上述问题:揭开基础模型的神秘面纱以注入数据准备知识、调整和调整预训练语言模型以进行数据准备,以及为不同的下游应用程序编排数据准备管道。
主要关键词