sparklyr 1.2:Foreach、Spark 3.0 和 Databricks Connect

新的 sparklyr 版本现已推出。此 sparklyr 1.2 版本具有新功能,例如对 Databricks Connect 的支持、用于“foreach”包的 Spark 后端、与 Spark 3.0 预览版配合使用的互操作改进,以及许多错误修复和解决用户可见痛点的改进。

来源:RStudio AI博客

见证 sparklyr 1.2 的辉煌!在此版本中,以下新热点成为焦点:

sparklyr
    一种 registerDoSpark 方法,用于创建由 Spark 提供支持的 foreach 并行后端,使数百个现有 R 包能够在 Spark 中运行。支持 Databricks Connect,允许 sparklyr 连接到远程 Databricks 集群。在使用 dplyr 收集和查询其嵌套属性时改进了对 Spark 结构的支持。
  • 一种 registerDoSpark 方法,用于创建由 Spark 提供支持的 foreach 并行后端,使数百个现有 R 包能够在 Spark 中运行。
  • registerDoSpark foreach
  • 支持 Databricks Connect,允许 sparklyr 连接到远程 Databricks 集群。
  • Databricks Connect sparklyr
  • 使用 dplyr 收集和查询 Spark 结构嵌套属性时,改进了对 Spark 结构的支持。
  • 结构 dplyr

    最近还解决了 sparklyr 和 Spark 3.0 预览版中观察到的许多互操作问题,希望到 Spark 3.0 正式推出时,sparklyr 已经完全准备好与之配合使用。最值得注意的是,spark_submit、sdf_bind_rows 和独立连接等关键功能现在终于可以在 Spark 3.0 预览版中使用了。

    sparklyr sparklyr spark_submit sdf_bind_rows

    要从 CRAN 运行安装 sparklyr 1.2,

    sparklyr

    完整的更改列表可在 sparklyr NEWS 文件中查看。

    NEWS

    Foreach

    foreach 包提供 %dopar% 运算符来并行迭代集合中的元素。使用 sparklyr 1.2,您现在可以使用 registerDoSpark() 将 Spark 注册为后端,然后使用 Spark 轻松地迭代 R 对象:

    foreach %dopar% sparklyr registerDoSpark()
    [1] 1.000000 1.414214 1.732051
    [1] 1.000000 1.414214 1.732051

    由于许多 R 包都是基于 foreach 来执行并行计算的,我们现在也可以在 Spark 中使用所有这些出色的包!

    foreach

    例如,我们可以使用 parsnip 和 tune 包以及来自 mlbench 的数据轻松地在 Spark 中执行超参数调整:

    parsnip ( ) (