详细内容或原文请订阅后点击阅览
sparklyr.flint 介绍:sparklyr 的时间序列扩展
我们很高兴地宣布,sparklyr.flint 现已在 CRAN 上可用,它是使用 Flint 大规模分析时间序列的 sparklyr 扩展。Flint 是一个用于处理 Apache Spark 中时间序列的开源库,支持对时间序列数据集进行聚合和连接。
来源:RStudio AI博客在这篇博文中,我们将展示 sparklyr.flint,这是一个全新的 sparklyr 扩展,为 Flint 时间序列库提供一个简单直观的 R 界面。 sparklyr.flint 现已在 CRAN 上可用,安装方法如下:
sparklyr.flintsparklyr.flint
sparklyr
sparklyr
Flint
Flint
sparklyr.flint
CRAN
install.packages("sparklyr.flint")
install.packages("sparklyr.flint")
install.packages("sparklyr.flint")
install.packages
"sparklyr.flint"
这篇文章的前两部分将快速概述 sparklyr 和 Flint,以确保读者不熟悉 sparklyr 或 Flint 的人可能会认为它们都是 sparklyr.flint 的基本构建块。之后,我们将在后续章节中介绍 sparklyr.flint 的设计理念、当前状态、示例用法,以及最后但并非最不重要的一点,它作为开源项目的未来发展方向。
sparklyr
Flint
sparklyr
Flint
sparklyr.flint
sparklyr.flint
sparklyr 快速介绍
sparklyr
sparklyr 是一个开源 R 接口,它将 Apache Spark 的分布式计算功能与 R 中用于数据转换和数据建模的熟悉的习语、工具和范例相结合。它允许将 R 中与非分布式数据配合良好的数据管道轻松转换为可以在 Apache Spark 中处理大规模分布式数据的类似管道。
sparklyr
Apache Spark
本节不会用几句话总结 sparklyr 提供的所有内容(这是不可能的),而是仅关注 sparklyr 的一小部分功能,这些功能与从 R 连接到 Apache Spark、将时间序列数据从外部数据源导入 Spark 以及通常作为数据预处理步骤一部分的简单转换有关。
sparklyr
sparklyr
连接到 Apache Spark 集群
使用 sparklyr 的第一步是连接到 Apache Spark。通常这意味着以下之一:
sparklyr
连接到由集群管理器(如 YARN)管理的多节点 Apache Spark 集群,例如
(