Timer-XL:用于时间序列预测的长上下文基础模型

探索仅解码器 Transformer 基础模型的内部工作原理后置 Timer-XL:用于时间序列预测的长上下文基础模型首先出现在 Towards Data Science 上。

来源:走向数据科学

改变了基础模型的运作方式。

在庞大的时态数据集上预训练大型深度学习模型可赋予可泛化的属性后,预训练的 TS 模型现在的目标是更加通用。

对于时间序列,这意味着支持外生变量并允许可变的上下文和预测长度。

本文讨论Timer-XL[1],它是基于Timer[2]的升级版时间序列模型。 Timer-XL 专为泛化而构建,重点关注长上下文预测。

让我们开始吧!

什么是 Timer-XL

Timer-XL 是用于预测的仅解码器 Transformer 基础模型。该模型强调普遍性和长期上下文预测——提供统一的长期预测。

Timer-XL 的主要特性:

  • 不同的输入/输出长度:与 Tiny-Time-Mixers 等针对不同输入或输出长度具有不同版本的模型不同,Timer-XL 对所有情况使用单一模型,而不对上下文或预测长度做出假设。
  • 长上下文预测:有效处理较长的回溯窗口。
  • 丰富的功能:预测非平稳单变量序列、复杂的多元动态以及具有外生变量的协变量信息背景 - 所有这些都在统一的设置中。
  • 多功能:可以从头开始训练或在大型数据集上进行预训练。为了提高性能,可以选择进一步微调。
  • Timer-XL 通过引入 TimeAttention 来提高预测准确性——这是一种优雅的注意力机制,我们将在下面详细讨论。

    Timer-XL 背后的团队(清华大学 THUML 实验室[3])在时间序列建模方面拥有深厚的专业知识。他们发布了 iTransfomer、TimesNet 和 Timer(Timer-XL 的前身)等里程碑模型。

    编码器、解码器与编码器-解码器模型

    在讨论 Timer-XL 之前,我们将探讨相关工作并回顾基础 TS 模型的状态 - 这将有助于我们理解是什么导致了 Timer-XL 的突破。

    NLP 应用

    时间序列应用

    因此:

    长上下文预测

    简而言之: