sparklyr 1.7:新的数据源和 spark_apply() 功能、更好的 sparklyr 扩展接口等等!

Sparklyr 1.7 提供了备受期待的改进,包括用于图像和二进制数据源的 R 接口、几个新的 spark_apply() 功能以及与 sparklyr 扩展的更好集成。

来源:RStudio AI博客

Sparklyr 1.7 现已在 CRAN 上可用!

Sparklyr Sparklyr CRAN

要从 CRAN 安装 sparklyr 1.7,请运行

sparklyr

在这篇博文中,我们希望介绍 sparklyr 1.7 版本的以下亮点:

sparklyr

图像和二进制数据源

作为用于大规模数据处理的统一分析引擎,Apache Spark 因其能够应对与大数据的数量、速度以及最后但并非最不重要的多样性相关的挑战而闻名。因此,毫不奇怪,为了响应深度学习框架的最新进展,Apache Spark 引入了对图像数据源和二进制数据源的内置支持(分别在 2.4 版和 3.0 版中)。这两个数据源的相应 R 接口,即 spark_read_image() 和 spark_read_binary(),最近作为 sparklyr 1.7 的一部分发布。

Apache Spark 图像数据源 二进制数据源 spark_read_image() spark_read_image() spark_read_binary() spark_read_binary() sparklyr

spark_read_image() 等数据源功能的实用性可能最好通过下面的快速演示来说明,其中 spark_read_image() 通过标准 Apache SparkImageSchema 帮助将原始图像输入连接到复杂的特征提取器和分类器,形成一个强大的 Spark 应用程序用于图像分类。

spark_read_image() spark_read_image() ImageSchema ImageSchema

演示

照片由 Daniel Tuttle 在 Unsplash 上拍摄

Daniel Tuttle Unsplash

在此演示中,我们将使用 spark_read_image() 和预训练的卷积神经网络(代号为 Inception,Szegedy 等人 (2015))构建一个可扩展的 Spark ML 管道,该管道能够准确有效地对猫和狗的图像进行分类。

spark_read_image() Inception Szegedy 等人 (2015) Szegedy 等人 2015

构建具有最大可移植性和可重复性的演示的第一步是创建一个完成以下操作的 sparklyr 扩展:

sparklyr 扩展

可以在此处找到此类 sparklyr 扩展的参考实现。

sparklyr ( ) (