sparklyr 1.4:加权采样、Tidyr 动词、稳健缩放器、 RAPIDS 等

Sparklyr 1.4 现已推出!此版本具有令人愉悦的新功能,例如对 Spark 数据帧的加权采样和 tidyr 动词支持、基于中位数和四分位距标准化数据的稳健缩放器、RAPIDS GPU 加速插件的 spark_connect 接口,以及许多与 dplyr 相关的改进。

来源:RStudio AI博客

sparklyr 1.4 现已在 CRAN 上可用!要从 CRAN 安装 sparklyr 1.4,请运行

sparklyr sparklyr CRAN sparklyr

在这篇博文中,我们将展示 sparklyr 1.4 版本中以下备受期待的新功能:

sparklyr

并行加权采样

熟悉 dplyr::sample_n() 和 dplyr::sample_frac() 函数的读者可能已经注意到,它们都支持 R 数据框上的加权采样用例,例如,

dplyr::sample_n() dplyr::sample_frac()
dplyr::sample_n(mtcars,size = 3,weight = mpg,replace = FALSE)
dplyr::sample_n(mtcars,size = 3,weight = mpg,replace = FALSE) dplyr::sample_n(mtcars,size = 3,weight = mpg,replace = FALSE) dplyr :: sample_n sample_n ( mtcars = 3 = mpg = FALSE )
mpg 缸内分布 马力 重量 qsec vs 增程齿轮化油器菲亚特 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1Merc 280C 17.8 6 167.6 123 3.92 3.440 18.90 1 0 4 4马自达 RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
mpg 缸内分布 马力 重量 qsec vs 增程齿轮化油器菲亚特 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1Merc 280C 17.8 6 167.6 123 3.92 3.440 18.90 1 0 4 4Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4

dplyr::sample_frac(mtcars, size = 0.1, weight = mpg, replace = FALSE)
dplyr::sample_frac(mtcars, size = 0.1, weight = mpg, replace = FALSE) dplyr::sample_frac(mtcars, size = 0.1, weight = mpg,replace = FALSE) dplyr :: sample_frac sample_frac ( mtcars = 0.1 = mpg = FALSE )
mpg 缸数 马力 重量 qsec vs am 齿轮 化油器本田思域 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2Merc 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3菲亚特 X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1
mpg 缸内显示马力 drat wt qsec vs am 齿轮化油器本田思域 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2Merc 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3菲亚特 X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1 mtcars mpg replace = FALSE replace = TRUE sparklyr library(sparklyr) library