详细内容或原文请订阅后点击阅览
PySpark 说明:用户定义函数
它们是什么,如何使用它们?继续阅读 Towards Data Science »
来源:走向数据科学PySpark 解释:用户定义函数
它们是什么,如何使用它们?
本文介绍 Spark 中的用户定义函数 (UDF)。我将介绍它们是什么以及如何使用它们,并向您展示如何使用用 PySpark 编写的示例来实现它们。
顺便说一句,当我谈到 PySpark 时,我只是说使用 Spark 编程时使用的底层语言是 Python。使用 Spark 进行开发的 OG 语言是 Scala,但随着 Python 的迅速流行,它现在成为人们在 Spark 中编程时使用的主要语言,尽管 Spark 本身是用 Scala 编写的。
是 是什么是 Spark?
如果您以前没有使用过或听说过 Spark,那么 TL;DR 就是它是一种快速处理和分析大量数据的强大工具。它是一个分布式计算引擎,旨在通过将大数据任务分解成更小的部分并并行处理来处理它们。这使得它比许多其他方法更快、更高效,特别是对于数据分析、机器学习和实时数据处理等复杂任务。
Spark 现在是 Apache 软件联盟的一部分,它有几个关键方面可以满足数据处理和分析的不同方面,包括机器学习组件、SQL 操作和处理……