sparklyr 1.2:Foreach、Spark 3.0 和 Databricks Connect
新的 sparklyr 版本现已推出。此 sparklyr 1.2 版本具有新功能,例如对 Databricks Connect 的支持、用于“foreach”包的 Spark 后端、与 Spark 3.0 预览版配合使用的互操作改进,以及许多错误修复和解决用户可见痛点的改进。
来源:RStudio AI博客见证 sparklyr 1.2 的辉煌!在此版本中,以下新热点成为焦点:
sparklyr- 一种 registerDoSpark 方法,用于创建由 Spark 提供支持的 foreach 并行后端,使数百个现有 R 包能够在 Spark 中运行。支持 Databricks Connect,允许 sparklyr 连接到远程 Databricks 集群。在使用 dplyr 收集和查询其嵌套属性时改进了对 Spark 结构的支持。
registerDoSpark
foreach
sparklyr
dplyr
最近还解决了 sparklyr 和 Spark 3.0 预览版中观察到的许多互操作问题,希望到 Spark 3.0 正式推出时,sparklyr 已经完全准备好与之配合使用。最值得注意的是,spark_submit、sdf_bind_rows 和独立连接等关键功能现在终于可以在 Spark 3.0 预览版中使用了。
sparklyr
sparklyr
spark_submit
sdf_bind_rows
要从 CRAN 运行安装 sparklyr 1.2,
sparklyr
完整的更改列表可在 sparklyr NEWS 文件中查看。
NEWSForeach
foreach 包提供 %dopar% 运算符来并行迭代集合中的元素。使用 sparklyr 1.2,您现在可以使用 registerDoSpark() 将 Spark 注册为后端,然后使用 Spark 轻松地迭代 R 对象:
foreach
%dopar%
sparklyr
registerDoSpark()
[1] 1.000000 1.414214 1.732051
[1] 1.000000 1.414214 1.732051
由于许多 R 包都是基于 foreach 来执行并行计算的,我们现在也可以在 Spark 中使用所有这些出色的包!
foreach
例如,我们可以使用 parsnip 和 tune 包以及来自 mlbench 的数据轻松地在 Spark 中执行超参数调整:
parsnip ( ) (