来自 sparkly-verse 的新闻 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

来自 sparkly-verse 的新闻

2024年4月22日 00:00 33 Comments

重点介绍 `sparklyr` 和朋友的最新更新

来源:RStudio AI博客

亮点

sparklyr 和朋友们在过去几个月中得到了一些重要更新，以下是一些亮点：

sparklyr

spark_apply() 现在可以在 Databricks Connect v2 上运行sparkxgb 即将恢复对 Spark 2.3 及以下版本的支持已结束

spark_apply() 现在可以在 Databricks Connect v2 上运行

spark_apply()

sparkxgb 即将恢复对 Spark 2.3 及以下版本的支持已结束

spark 2.3 及以下版本的支持已结束

pysparklyr 0.1.4

spark_apply() 现在可在 Databricks Connect v2 上运行。最新的 pysparklyr 版本使用 rpy2 Python 库作为集成的主干。

spark_apply()

pysparklyr

rpy2

Databricks Connect v2 基于 Spark Connect。目前，它支持 Python 用户定义函数 (UDF)，但不支持 R 用户定义函数。使用 rpy2 可绕过此限制。如图所示，sparklyr 将 R 代码发送到本地安装的 rpy2，后者又将其发送到 Spark。然后，安装在远程 Databricks 集群中的 rpy2 将运行 R 代码。

rpy2

sparklyr

rpy2 rpy2 图 1：通过 rpy2 的 R 代码

这种方法的一大优势是 rpy2 支持 Arrow。事实上，它是集成 Spark、Arrow 和 R 时推荐使用的 Python 库。这意味着三个环境之间的数据交换将更快！

rpy2

Spark、Arrow 和 R

与其原始实现一样，模式推断有效，并且与原始实现一样，它具有性能成本。但与原始实现不同，此实现将返回一个“列”规范，您可以在下次运行调用时使用它。

spark_apply( tbl_mtcars, nrow, group_by = "am")#> 为了提高性能，请使用以下模式：#> columns = "am double, x long"#> # 来源：表<`sparklyr_tmp_table_b84460ea_b1d3_471b_9cef_b13f339819b6`> [2 x 2]#> # 数据库：spark_connection#> am x#> #> 1 0 19#> 2 1 13

spark_apply(

spark_apply

tbl_mtcars, nrow, group_by = )

实现原始版本 apply spark 使用远程支持 sparklyr Databricks Connect 朋友 rpy2 用户 Spark 2.3 运行 v2 结束

来自 sparkly-verse 的新闻

亮点

spark_apply()

其他外部链接

Tags

XiaoMi-AI