深度学习的数据预处理:如何构建高效的大数据管道

如何使用 ETL 模式和函数式编程在 Tensorflow 中开发高性能输入管道

来源:AI夏令营

在本文中,我们探讨了机器学习应用的大数据处理主题。构建高效的数据管道是开发深度学习产品的重要部分,不应掉以轻心。我敢肯定,您现在已经知道,如果没有正确的数据,机器学习就完全没用。正确的数据是指来自正确来源并具有正确格式的数据。

但是什么是数据管道?我们什么时候将其描述为高效的?

一般来说,数据预处理包括两个步骤:数据工程和特征工程。

数据工程和特征工程
    数据工程是将原始数据转换为准备好的数据的过程,ML 模型可以使用这些数据。特征工程创建模型所需的特征。
  • 数据工程是将原始数据转换为准备好的数据的过程,ML 模型可以使用这些数据。
  • 数据工程是将原始数据转换为准备好的数据的过程,ML 模型可以使用这些数据。

  • 特征工程创建模型所需的特征。
  • 特征工程创建模型所需的特征。

    当我们处理少量数据点时,构建管道通常很简单。但深度学习几乎从来不是这样。在这里​​,我们使用非常大的数据集(在某些情况下,我指的是 GB 甚至 TB)。操纵这些数据集绝对不是一件容易的事。但应对困难的软件挑战正是本系列文章的全部内容。如果你不知道我在说什么,这里有一个简短的提醒:

    第一篇文章

    回到数据处理。我们在哪里?哦,是的。那么我们如何构建高效的大数据管道来将数据输入机器学习模型呢?让我们从基础开始。

  • 提取涉及从多个同质或异构源提取数据的过程。
  • 提取 转换 加载 TPU
  • 数据可能不适合内存。
  • tf.data 模块 = tf .