sparklyr.flint 介绍:sparklyr 的时间序列扩展

我们很高兴地宣布,sparklyr.flint 现已在 CRAN 上可用,它是使用 Flint 大规模分析时间序列的 sparklyr 扩展。Flint 是一个用于处理 Apache Spark 中时间序列的开源库,支持对时间序列数据集进行聚合和连接。

来源:RStudio AI博客

在这篇博文中,我们将展示 sparklyr.flint,这是一个全新的 sparklyr 扩展,为 Flint 时间序列库提供一个简单直观的 R 界面。 sparklyr.flint 现已在 CRAN 上可用,安装方法如下:

sparklyr.flint sparklyr.flint sparklyr sparklyr Flint Flint sparklyr.flint CRAN
install.packages("sparklyr.flint")
install.packages("sparklyr.flint") install.packages("sparklyr.flint") install.packages "sparklyr.flint"

这篇文章的前两部分将快速概述 sparklyr 和 Flint,以确保读者不熟悉 sparklyr 或 Flint 的人可能会认为它们都是 sparklyr.flint 的基本构建块。之后,我们将在后续章节中介绍 sparklyr.flint 的设计理念、当前状态、示例用法,以及最后但并非最不重要的一点,它作为开源项目的未来发展方向。

sparklyr Flint sparklyr Flint sparklyr.flint sparklyr.flint

sparklyr 快速介绍

sparklyr

sparklyr 是一个开源 R 接口,它将 Apache Spark 的分布式计算功能与 R 中用于数据转换和数据建模的熟悉的习语、工具和范例相结合。它允许将 R 中与非分布式数据配合良好的数据管道轻松转换为可以在 Apache Spark 中处理大规模分布式数据的类似管道。

sparklyr Apache Spark

本节不会用几句话总结 sparklyr 提供的所有内容(这是不可能的),而是仅关注 sparklyr 的一小部分功能,这些功能与从 R 连接到 Apache Spark、将时间序列数据从外部数据源导入 Spark 以及通常作为数据预处理步骤一部分的简单转换有关。

sparklyr sparklyr

连接到 Apache Spark 集群

使用 sparklyr 的第一步是连接到 Apache Spark。通常这意味着以下之一:

sparklyr

连接到由集群管理器(如 YARN)管理的多节点 Apache Spark 集群,例如

(