详细内容或原文请订阅后点击阅览
用于时间序列分析的 5 个有用的 Python 脚本
时间序列数据在金融、运营、工程和研究领域很常见。这五个 Python 脚本涵盖了重复出现的分析任务。
来源:KDnuggets简介
处理时间序列数据涉及一组一致的任务。原始数据以不规则的间隔到达,需要重新采样。在异常峰值扭曲任何下游分析之前,需要对其进行识别。趋势和季节性模式需要与噪音分开。当你有多个系列时,了解它们之间的相互关系需要的不仅仅是快速的视觉扫描。
这五个 Python 脚本处理这些常见的时间序列任务。它们旨在与标准 CSV 或 Excel 输入配合使用,生成干净的输出,并且可以直接针对不同的数据集进行配置。
您可以在 GitHub 上获取所有脚本。
1. 不规则时间序列的重采样和聚合
痛点
现实世界的时间序列数据很少以统一的时间间隔到达。传感器读数、事务日志和事件流存在间隙、重复和不一致的时间戳。在进行任何有意义的分析之前,需要将数据调整到一致的频率。
脚本的作用
获取包含日期时间列和一个或多个值列的 CSV 或 Excel 文件,按照您指定的频率重新采样,并对每列应用聚合函数。填充或标记空白并写入一个干净的输出文件,其中包含更改内容的摘要。
工作原理
该脚本使用 pandas 解析日期时间列,将其设置为索引,并使用带有可配置频率字符串的 resample() 。每列聚合方法是在配置中定义的,因此温度列可以使用平均值,而销售列可以使用总和。根据您的设置,重采样后丢失的间隔将通过前向填充、插值或显式 NaN 标记进行处理。差距报告列出了原始数据中缺少数据的每个间隔。
⏩获取时间序列重采样器脚本
2. 检测时间序列数据中的异常
⏩获取异常检测器脚本
3. 将序列分解为趋势、季节性和残差
⏩获取时间序列分解脚本
