详细内容或原文请订阅后点击阅览
深度学习的数据预处理:如何构建高效的大数据管道
如何使用 ETL 模式和函数式编程在 Tensorflow 中开发高性能输入管道
来源:AI夏令营在本文中,我们探讨了机器学习应用的大数据处理主题。构建高效的数据管道是开发深度学习产品的重要部分,不应掉以轻心。我敢肯定,您现在已经知道,如果没有正确的数据,机器学习就完全没用。正确的数据是指来自正确来源并具有正确格式的数据。
但是什么是数据管道?我们什么时候将其描述为高效的?
一般来说,数据预处理包括两个步骤:数据工程和特征工程。
数据工程和特征工程- 数据工程是将原始数据转换为准备好的数据的过程,ML 模型可以使用这些数据。特征工程创建模型所需的特征。
数据工程是将原始数据转换为准备好的数据的过程,ML 模型可以使用这些数据。
特征工程创建模型所需的特征。
当我们处理少量数据点时,构建管道通常很简单。但深度学习几乎从来不是这样。在这里,我们使用非常大的数据集(在某些情况下,我指的是 GB 甚至 TB)。操纵这些数据集绝对不是一件容易的事。但应对困难的软件挑战正是本系列文章的全部内容。如果你不知道我在说什么,这里有一个简短的提醒:
第一篇文章回到数据处理。我们在哪里?哦,是的。那么我们如何构建高效的大数据管道来将数据输入机器学习模型呢?让我们从基础开始。