详细内容或原文请订阅后点击阅览
PySpark 解释:创建和填充数据帧的四种方法
从 CSV 到数据库:将数据加载到 PySpark DataFrames 继续阅读 Towards Data Science »
来源:走向数据科学PySpark 说明:创建和填充 DataFrames 的四种方法
从 CSV 到数据库:将数据加载到 PySpark DataFrames 中
使用 PySpark 时,尤其是如果您有 SQL 背景,您要做的第一件事就是将要处理的数据放入 DataFrame 中。一旦数据进入 DataFrame,就可以轻松地从 DataFrame 创建临时视图(或永久表)。在此阶段,PySpark SQL 的所有丰富操作集都可供您使用,以进一步探索和处理数据。
由于许多标准 SQL 技能可以轻松转移到 PySpark SQL,因此在处理管道中尽早准备好数据以供 PySpark SQL 直接使用至关重要。这样做应该是高效数据处理和分析的首要任务。
当然,您不必这样做,因为使用 PySpark SQL 在视图或表上执行的任何操作都可以使用 API 直接在 DataFrames 上执行。但作为一个更习惯使用 SQL 而不是 DataFrame API 的人,我使用 Spark 时的 goto 流程一直是,
有 有输入数据 -> DataFrame-> 临时视图-> SQL 处理
输入数据 -> DataFrame-> 临时视图-> SQL 处理
输入数据 -> DataFrame-> 临时视图-> SQL 处理为了帮助您完成此过程,本文将讨论此管道的第一部分,即将数据放入 DataFrames,通过展示四个...