PySpark 说明:用户定义函数

它们是什么,如何使用它们?继续阅读 Towards Data Science »

来源:走向数据科学

PySpark 解释:用户定义函数

它们是什么,如何使用它们?

本文介绍 Spark 中的用户定义函数 (UDF)。我将介绍它们是什么以及如何使用它们,并向您展示如何使用用 PySpark 编写的示例来实现它们。

顺便说一句,当我谈到 PySpark 时,我只是说使用 Spark 编程时使用的底层语言是 Python。使用 Spark 进行开发的 OG 语言是 Scala,但随着 Python 的迅速流行,它现在成为人们在 Spark 中编程时使用的主要语言,尽管 Spark 本身是用 Scala 编写的。

什么是 Spark?

如果您以前没有使用过或听说过 Spark,那么 TL;DR 就是它是一种快速处理和分析大量数据的强大工具。它是一个分布式计算引擎,旨在通过将大数据任务分解成更小的部分并并行处理来处理它们。这使得它比许多其他方法更快、更高效,特别是对于数据分析、机器学习和实时数据处理等复杂任务。

Spark 现在是 Apache 软件联盟的一部分,它有几个关键方面可以满足数据处理和分析的不同方面,包括机器学习组件、SQL 操作和处理……