深度学习的数据预处理：如何构建高效的大数据管道 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

深度学习的数据预处理：如何构建高效的大数据管道

2020年7月23日 00:00 33 Comments

如何使用 ETL 模式和函数式编程在 Tensorflow 中开发高性能输入管道

来源:AI夏令营

在本文中，我们探讨了机器学习应用的大数据处理主题。构建高效的数据管道是开发深度学习产品的重要部分，不应掉以轻心。我敢肯定，您现在已经知道，如果没有正确的数据，机器学习就完全没用。正确的数据是指来自正确来源并具有正确格式的数据。

但是什么是数据管道？我们什么时候将其描述为高效的？

一般来说，数据预处理包括两个步骤：数据工程和特征工程。

数据工程和特征工程

数据工程是将原始数据转换为准备好的数据的过程，ML 模型可以使用这些数据。特征工程创建模型所需的特征。

数据工程是将原始数据转换为准备好的数据的过程，ML 模型可以使用这些数据。

特征工程创建模型所需的特征。

当我们处理少量数据点时，构建管道通常很简单。但深度学习几乎从来不是这样。在这里，我们使用非常大的数据集（在某些情况下，我指的是 GB 甚至 TB）。操纵这些数据集绝对不是一件容易的事。但应对困难的软件挑战正是本系列文章的全部内容。如果你不知道我在说什么，这里有一个简短的提醒：

第一篇文章

回到数据处理。我们在哪里？哦，是的。那么我们如何构建高效的大数据管道来将数据输入机器学习模型呢？让我们从基础开始。

提取涉及从多个同质或异构源提取数据的过程。

提取转换加载 TPU

数据可能不适合内存。

tf.data 模块 = tf .

创建工程转换特征提取所需的数据机器学习管道文章挑战 ML 模型原始数据