sparklyr.flint 0.2:ASOF 连接、OLS 回归和其他汇总器

我们很高兴地宣布,许多强大的新功能和改进现已成为 sparklyr.flint 0.2 的一部分!

来源:RStudio AI博客

自从 9 月份推出 sparklyr.flint(一种通过 sparklyr 利用 Flint 时间序列功能的 sparklyr 扩展)以来,我们对其进行了许多改进,并已成功将 sparklyr.flint 0.2 提交给 CRAN。

sparklyr.flint sparklyr.flint sparklyr sparklyr Flint sparklyr 引入 sparklyr.flint

在这篇博文中,我们重点介绍了 sparklyr.flint 0.2 中的以下新功能和改进:

sparklyr.flint

ASOF 连接

对于不熟悉该术语的人来说,ASOF 连接是基于时间戳不精确匹配的时间连接操作。在 Apache Spark 的上下文中,连接操作,粗略地说,根据某些标准匹配来自两个数据框(我们称之为左和右)的记录。时间连接意味着根据时间戳匹配左侧和右侧的记录,并且允许不精确匹配时间戳,通常沿着以下时间方向之一连接左侧和右侧很有用:

Apache Spark
    回顾:如果左侧记录的时间戳为 t,则它会与右侧具有小于或等于 t 的最新时间戳的记录匹配。展望:如果左侧记录的时间戳为 t,则它会与右侧具有大于或等于(或者,严格大于)t 的最小时间戳的记录匹配。
  • 回顾:如果左侧的记录有时间戳 t,则它会与右侧的记录匹配,其中最近的时间戳小于或等于 t。
  • t t
  • 向前看:如果左侧的记录有时间戳 t,则它会与右侧的记录匹配,其中最小的时间戳大于或等于(或者严格大于)t。
  • t, t

    但是,如果两个时间戳相距太远,则将它们视为“匹配”往往没有用。因此,回顾或向前看的最大时间量的额外约束通常也是 ASOF 连接操作的一部分。

    Sparklyr.flint asof_join() u v