来自 sparkly-verse 的新闻

重点介绍 `sparklyr` 和朋友的最新更新

来源:RStudio AI博客

亮点

sparklyr 和朋友们在过去几个月中得到了一些重要更新,以下是一些亮点:

sparklyr
    spark_apply() 现在可以在 Databricks Connect v2 上运行sparkxgb 即将恢复对 Spark 2.3 及以下版本的支持已结束
  • spark_apply() 现在可以在 Databricks Connect v2 上运行
  • spark_apply() 现在可以在 Databricks Connect v2 上运行

    spark_apply()
  • sparkxgb 即将恢复对 Spark 2.3 及以下版本的支持已结束
  • sparkxgb 即将恢复对 Spark 2.3 及以下版本的支持已结束

    spark 2.3 及以下版本的支持已结束
  • pysparklyr 0.1.4
  • spark_apply() 现在可在 Databricks Connect v2 上运行。最新的 pysparklyr 版本使用 rpy2 Python 库作为集成的主干。

    spark_apply()

    pysparklyr

    rpy2 Databricks Connect v2 基于 Spark Connect。目前,它支持 Python 用户定义函数 (UDF),但不支持 R 用户定义函数。使用 rpy2 可绕过此限制。如图所示,sparklyr 将 R 代码发送到本地安装的 rpy2,后者又将其发送到 Spark。然后,安装在远程 Databricks 集群中的 rpy2 将运行 R 代码。 rpy2

    sparklyr

    rpy2 rpy2 图 1:通过 rpy2 的 R 代码 这种方法的一大优势是 rpy2 支持 Arrow。事实上,它是集成 Spark、Arrow 和 R 时推荐使用的 Python 库。这意味着三个环境之间的数据交换将更快!

    rpy2

    Spark、Arrow 和 R

    与其原始实现一样,模式推断有效,并且与原始实现一样,它具有性能成本。但与原始实现不同,此实现将返回一个“列”规范,您可以在下次运行调用时使用它。 spark_apply( tbl_mtcars, nrow, group_by = "am")#> 为了提高性能,请使用以下模式:#> columns = "am double, x long"#> # 来源:表<`sparklyr_tmp_table_b84460ea_b1d3_471b_9cef_b13f339819b6`> [2 x 2]#> # 数据库:spark_connection#> am x#> ​​ #> 1 0 19#> 2 1 13

    spark_apply(

    spark_apply
    tbl_mtcars, nrow, group_by = )