sparklyr 1.4:加权采样、Tidyr 动词、稳健缩放器、 RAPIDS 等
Sparklyr 1.4 现已推出!此版本具有令人愉悦的新功能,例如对 Spark 数据帧的加权采样和 tidyr 动词支持、基于中位数和四分位距标准化数据的稳健缩放器、RAPIDS GPU 加速插件的 spark_connect 接口,以及许多与 dplyr 相关的改进。
来源:RStudio AI博客sparklyr 1.4 现已在 CRAN 上可用!要从 CRAN 安装 sparklyr 1.4,请运行
sparklyrsparklyr
CRAN
sparklyr
在这篇博文中,我们将展示 sparklyr 1.4 版本中以下备受期待的新功能:
sparklyr
并行加权采样
熟悉 dplyr::sample_n() 和 dplyr::sample_frac() 函数的读者可能已经注意到,它们都支持 R 数据框上的加权采样用例,例如,
dplyr::sample_n()
dplyr::sample_frac()
dplyr::sample_n(mtcars,size = 3,weight = mpg,replace = FALSE)
dplyr::sample_n(mtcars,size = 3,weight = mpg,replace = FALSE)
dplyr::sample_n(mtcars,size = 3,weight = mpg,replace = FALSE)
dplyr
::
sample_n
sample_n
(
mtcars
=
3
=
mpg
=
FALSE
)
mpg 缸内分布 马力 重量 qsec vs 增程齿轮化油器菲亚特 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1Merc 280C 17.8 6 167.6 123 3.92 3.440 18.90 1 0 4 4马自达 RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
mpg 缸内分布 马力 重量 qsec vs 增程齿轮化油器菲亚特 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1Merc 280C 17.8 6 167.6 123 3.92 3.440 18.90 1 0 4 4Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
和
dplyr::sample_frac(mtcars, size = 0.1, weight = mpg, replace = FALSE)
dplyr::sample_frac(mtcars, size = 0.1, weight = mpg, replace = FALSE)
dplyr::sample_frac(mtcars, size = 0.1, weight = mpg,replace = FALSE)
dplyr
::
sample_frac
sample_frac
(
mtcars
=
0.1
=
mpg
=
FALSE
)
mpg 缸数 马力 重量 qsec vs am 齿轮 化油器本田思域 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2Merc 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3菲亚特 X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1
mpg 缸内显示马力 drat wt qsec vs am 齿轮化油器本田思域 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2Merc 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3菲亚特 X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1
mtcars
mpg
replace = FALSE
replace = TRUE
sparklyr
library(sparklyr)
library