详细内容或原文请订阅后点击阅览
sparklyr 1.3:高阶函数、Avro 和自定义序列化器
Sparklyr 1.3 现已推出,具有令人兴奋的新功能,例如集成 Spark 高阶函数以及以 Avro 和用户定义的序列化格式导入/导出数据。
来源:RStudio AI博客sparklyr 1.3 现已在 CRAN 上发布,具有以下主要新功能:
sparklyrsparklyr
CRAN
- 高阶函数可轻松操作数组和结构 支持面向行的数据序列化框架 Apache Avro 使用 R 函数进行自定义序列化以读取和写入任何数据格式 其他改进,例如与 EMR 6.0 和 Spark 3.0 的兼容性以及对 Flint 时间序列库的初步支持
要从 CRAN 安装 sparklyr 1.3,请运行
sparklyr
在本文中,我们将重点介绍 sparklyr 1.3 中引入的一些主要新功能,并展示这些功能派上用场的场景。虽然许多增强功能和错误修复(尤其是与 spark_apply()、Apache Arrow 和辅助 Spark 连接相关的功能)也是此版本的重要组成部分,但它们不是本文的主题,读者可以轻松地从 sparklyr NEWS 文件中了解有关它们的更多信息。
spark_apply()
Apache Arrow
新闻
高阶函数
高阶函数是内置的 Spark SQL 构造,允许将用户定义的 lambda 表达式有效地应用于复杂数据类型(例如数组和结构)。为了快速演示高阶函数的用处,我们假设有一天史高治·麦克老鸭潜入他巨大的金库,发现了大量一美分、五美分、一角和四分之一美元。他对数据结构有着无可挑剔的品味,因此他决定将所有东西的数量和面值存储到两个 Spark SQL 数组列中:
高阶函数 library(sparklyr) library library ( sparklyr sparklyr ) sc <- spark_connect ( = "local" = "2.4.5" ) coins_tbl <- (