sparklyr 1.2：Foreach、Spark 3.0 和 Databricks Connect XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

sparklyr 1.2：Foreach、Spark 3.0 和 Databricks Connect

2020年4月21日 00:00 33 Comments

新的 sparklyr 版本现已推出。此 sparklyr 1.2 版本具有新功能，例如对 Databricks Connect 的支持、用于“foreach”包的 Spark 后端、与 Spark 3.0 预览版配合使用的互操作改进，以及许多错误修复和解决用户可见痛点的改进。

来源:RStudio AI博客

见证 sparklyr 1.2 的辉煌！在此版本中，以下新热点成为焦点：

sparklyr

一种 registerDoSpark 方法，用于创建由 Spark 提供支持的 foreach 并行后端，使数百个现有 R 包能够在 Spark 中运行。支持 Databricks Connect，允许 sparklyr 连接到远程 Databricks 集群。在使用 dplyr 收集和查询其嵌套属性时改进了对 Spark 结构的支持。

一种 registerDoSpark 方法，用于创建由 Spark 提供支持的 foreach 并行后端，使数百个现有 R 包能够在 Spark 中运行。

registerDoSpark foreach

支持 Databricks Connect，允许 sparklyr 连接到远程 Databricks 集群。

Databricks Connect sparklyr

使用 dplyr 收集和查询 Spark 结构嵌套属性时，改进了对 Spark 结构的支持。

结构 dplyr

最近还解决了 sparklyr 和 Spark 3.0 预览版中观察到的许多互操作问题，希望到 Spark 3.0 正式推出时，sparklyr 已经完全准备好与之配合使用。最值得注意的是，spark_submit、sdf_bind_rows 和独立连接等关键功能现在终于可以在 Spark 3.0 预览版中使用了。

sparklyr sparklyr spark_submit sdf_bind_rows

要从 CRAN 运行安装 sparklyr 1.2，

sparklyr

完整的更改列表可在 sparklyr NEWS 文件中查看。

NEWS

Foreach

foreach 包提供 %dopar% 运算符来并行迭代集合中的元素。使用 sparklyr 1.2，您现在可以使用 registerDoSpark() 将 Spark 注册为后端，然后使用 Spark 轻松地迭代 R 对象：

foreach %dopar% sparklyr registerDoSpark()

[1] 1.000000 1.414214 1.732051

[1] 1.000000 1.414214 1.732051

由于许多 R 包都是基于 foreach 来执行并行计算的，我们现在也可以在 Spark 中使用所有这些出色的包！

foreach

例如，我们可以使用 parsnip 和 tune 包以及来自 mlbench 的数据轻松地在 Spark 中执行超参数调整：

parsnip ( ) (

连接 1.2 结构运行 dplyr 收集 Spark 属性使用并行 3.0 查询迭代 Databricks registerDoSpark sparklyr 嵌套集合 foreach

sparklyr 1.2：Foreach、Spark 3.0 和 Databricks Connect

Foreach

其他外部链接

Tags

XiaoMi-AI