详细内容或原文请订阅后点击阅览
sparklyr.flint 0.2:ASOF 连接、OLS 回归和其他汇总器
我们很高兴地宣布,许多强大的新功能和改进现已成为 sparklyr.flint 0.2 的一部分!
来源:RStudio AI博客自从 9 月份推出 sparklyr.flint(一种通过 sparklyr 利用 Flint 时间序列功能的 sparklyr 扩展)以来,我们对其进行了许多改进,并已成功将 sparklyr.flint 0.2 提交给 CRAN。
sparklyr.flintsparklyr.flint
sparklyr
sparklyr
Flint
sparklyr
引入
sparklyr.flint
在这篇博文中,我们重点介绍了 sparklyr.flint 0.2 中的以下新功能和改进:
sparklyr.flint
ASOF 连接
对于不熟悉该术语的人来说,ASOF 连接是基于时间戳不精确匹配的时间连接操作。在 Apache Spark 的上下文中,连接操作,粗略地说,根据某些标准匹配来自两个数据框(我们称之为左和右)的记录。时间连接意味着根据时间戳匹配左侧和右侧的记录,并且允许不精确匹配时间戳,通常沿着以下时间方向之一连接左侧和右侧很有用:
Apache Spark左
右
左
右
左
右
- 回顾:如果左侧记录的时间戳为 t,则它会与右侧具有小于或等于 t 的最新时间戳的记录匹配。展望:如果左侧记录的时间戳为 t,则它会与右侧具有大于或等于(或者,严格大于)t 的最小时间戳的记录匹配。
左
t
右
t
左
t,
右
t
但是,如果两个时间戳相距太远,则将它们视为“匹配”往往没有用。因此,回顾或向前看的最大时间量的额外约束通常也是 ASOF 连接操作的一部分。
Sparklyr.flint
asof_join()
左
右
u
v