深度学习在期间序列预测的总结和未来方向剖析

2024-11-15

2023年是大言语模型和稳固分散的一年，期间序列畛域虽然没有那么大的成就，然而却有缓慢而稳固的停顿。Neurips、ICML和AAAI等会议都有transformer结构(BasisFormer、Crossformer、Inverted transformer和Patchtransformer)的改良，还出现了将数值期间序列数据与文本和图像分解的新体系结构(CrossVIVIT)，也出现了间接运行于期间序列的或许性的LLM，以及新方式的期间序列正则化/规范化技术(san)。

咱们这篇文章就来总结下2023年深度学习在期间序列预测中的开展和2024年未来方向剖析

Neurips 2023

在往年的NIPs上，有一些关于transformer、归一化、颠簸性和多模态学习的幽默的新论文。然而在期间序列畛域没有任何严重打破，只要一些实践的，渐进的性能改良微幽默的概念证实。

1、Adaptive Normalization for Non-stationary Time Series

论文引见了一种“模型无法知的归一化框架”来简化非颠簸期间序列数据的预测。作者让SAN分两步操作:训练一个统计预测模型(通常是ARIMA)，而后训练实践的深度期间序列基础模型(经常使用统计模型对TS数据启动切片、归一化和反归一化)。统计模型对输入期间序列启动切片，以便学习更强健的期间序列示意并去除非颠簸属性。作者指出:“经过对切片级个性启动建模，SAN能够消弭部分区域的非颠簸性。”SAN还显式地预测目的窗口的统计消息(规范差/平均值)。这使得它在处置非颠簸数据时，与普通模型相比，能够更好地顺应随期间的变化。

驳回transformer模型作为基本预测模型，对典型的期间序列预测基准(如电力、替换、交通等)启动目的验证。作者发现SAN在这些基准数据集上继续提高了基本模型的性能(虽然他们没有测试InvertedTransformer，由于这篇论文是在Inverted Transformer之前颁布的)。

由于该模型联合了一个统计模型(通常是ARIMA)和一个普通的transformer，我以为调优和调试(特意是在新的数据集上)或许会很辣手和费事。由于简直一切的期间序列模型都将序列输入长度作为超参数。另外就是“切片”的切片与普通的序列窗口有何不同?作者还是没有说清楚。总的来说，我以为这依然是一个相当弱小的奉献，由于它的试验结果和即插即用属性。

2、BasisFormer

BasisFormer经常使用可学习和可解释的“basis”来改良普通的transformer体系结构。这里的“basis”指的是创立一个相似于NBeats的神经“basis”(例如，为基于多项式的函数学习趋向、节令性等的系数)。该模型分为三个部分:基础模块、系数模块和预测模块。基模块试图以自监视的方式确定一组适用于历史和未来期间序列数据的数据基础趋向。basis模块经过对比学习和一个名为InfoNCEloss的特定损失函数(该函数试图学习未来和过去期间序列之间的咨询)。coef模型试图“模拟期间序列和一组基础趋向之间的相似性”。关于coef模型，作者经常使用了一个交叉留意力模块，该模块将basis和期间序列作为输入。而后将输入输入到蕴含多个MLP的预测模块中。

作者在典型的期间序列预测数据集(ETH1, ETH, weather,exchange)上评价他们的论文。发现BasisFormer比其余模型(Fedformer、Informer等)的性能提高了11-15%。BasisFormer还没有被拿来和InvertedTransformer比拟，由于它还没有颁布。仿佛Inverted Transformer和或许的Crossformer或许会略优于BasisFormer。

还记的去年咱们看到了“Are Transformers Effective for Time SeriesForecasting?”这篇论文批判了许多Transformers模型，并展现了一个便捷的模型“D-Linear”如何逾越它们。在2023年从BasisFromer开局，曾经开局缓慢的处置这些疑问，并逾越下面提到的基准模型。

这篇论文模型的技术是牢靠的，但这篇论文好处难了解。由于作者引见了学习“basis”的概念，但并没有真正解释这种方法的陈腐性以及它与其余模型的不同之处。

3、Improving day-ahead Solar Irradiance Time Series Forecasting by LeveragingSpatio-Temporal Context

论文提出了一种基于混合(视觉和期间序列)深度学习的架构，用于预测第二天的太阳能产量。太阳能的消费经常遭到云层笼罩的影响，这在卫星图像数据中可以看到，但在数值数据中没有很好地表现进去。除了模型自身外，论文的另外奉献是钻研人员构建并开源的多模态卫星图像数据集。作者形容了一个多级Transformers架构，同时关注数值期间序列和图像数据。期间序列数据经过期间Transformers 图像经过视觉Transformers。而后，交叉留意力模块将前两个模块的图像数据综合起来。最后数据进入一个输入预测的最终时态Transformers 。

作者在论文中提到的另一个有用的想法被称为ROPE或旋转位置编码。这将在编码/位置嵌入中创立坐标对。这是用来形容从云层到太阳能站的距离。

作者对他们的新数据集启动评价和基准测试，比拟了Informer、Reformer、Crossformer和其余深度期间序列模型的性能。作者还在整合图像数据方面辨别了艰巨和容易的义务，他们的方法优于其余模型。

这篇论文提供了一个幽默的框架，ROPE的概念也很幽默，关于任何经常使用坐标方式的天文数据的人都有潜在的协助。数据集自身关于多模态预测的继续上班十分有用，这是一项十分有益的奉献。

4、Large Language Models Are Zero-Shot Time Series Forecasters

这篇论文讨论了预训练的llm能否间接以整数方式输入期间序列数据，并以零样本的方式预测未来数据。作者形容了经常使用GPT-3和GPT-4和开源LLMs不进一步修正结构间接与期间序列值交互的状况。最后还形容了他们对模型零样本训练行为来源的思索。作者假定，这种行为是提取常识的预训练的普遍通用性的结果。

在下面提到的规范期间序列基准数据集评价他们的模型。虽然模型没有到达SOTA性能，但思索到它齐全是零样本并且没有额外的微调，所以表现还是很好的。

llm可以开箱即用地启动TS预测，由于它们都是在文本数据上训练的。这一畛域或许值得未来进一步探求，这篇论文是一个很好的一步。然而该模型目前只能处置单变量期间序列

ICML 、ICLR 2023

除了Neurips之外，ICML和ICLR2023还重点引见了几篇关于期间序列预测/剖析的深度学习的论文。以下是一些我觉得很幽默的，并且对未来一年仍无心义的倡导:

1、Crossformer

该模型是专门为多元期间序列预测(MTS)开发的。该模型驳回维度分段嵌入(DSW)机制。DSW嵌入与传统嵌入的不同之处在于它驳回二维格局的数据。并且跨变量和期间维度显式地从MTS数据生成段。

该模型在规范MTS数据集(ETH,exchange等)上启动了评价：在颁布时时优于大少数其余模型，例如Informer和DLinear。作者还对dSW启动了消融钻研。

这篇来自ICLR的关于的论文在预测河流流量时表现不错，然而是在一次性预测多个目的时，性能仿佛会降低很多。也就是说，它的表现必需比Informer和相关的Transformers模型要好。

2、Learning Perturbations to Explain Time Series Predictions

大少数用于深度学习解释的扰动技术都是面向静态数据(图像和文本)的。然而关于期间序列特意是多元TS须要更大范围的扰动来学习随机影响。作者提出了一种基于深度学习的方法，可以学习数据的掩码和相关的扰动，更好地解释特色的关键性。而后将掩码和扰动的输入传递给模型，并将输入与未扰动数据的输入启动比拟。据两个输入之间的差值计算损失。

越来越多的钻研人员正在深化钻研解释深度学习模型这是件善报。本文概述了现有的方法及其无余，并提出了一种改良的方法。我以为经常使用额外的神经网络来学习扰动的想法参与了不用要的复杂性,由于每当咱们参与更多的层和额外的网络时，就会参与出现疑问的概率，特意是在曾经很大的网络上。别忘了奥卡姆剃刀定律如无必要，勿增实体

3、Learning Deep Time Index Models

本文经过光流和元学习来讨论预测，形容了学习如何预测非颠簸期间序列。关于那些不相熟的人来说，元学习通常被运行在计算机视觉数据集上，像MAML这样的论文可以对新的图像类启动大批的学习。MAML和其余模型都有一个外部循环和一个外部循环，其中外部循环教模型如何学习，外部循环对其启动微调以顺应特定的义务。论文的作者驳回了这一思维，并将其运行于简直将每个非颠簸性视为一个新的学习义务。新的“义务”是长期间序列序列的块。

作者在ETH，temperature和exchange数据集上测试了他们的模型。虽然他们的模型没有到达SOTA的结果，但它与的SOTA体系结构具备竞争力。

这篇论文为期间序列预测提供了一个幽默的角度，相关于惯例方法有了一个新的打破，我想就是他虽然没有超越SOTA然而还是被录用的要素之一吧。

4、Inverted Transformers are Effective for Time Series Forecasting

《Inverted Transformers》是2024年宣布的一篇论文。这也是目后期间序列预测数据集上的SOTA。基本上，InvertedTransformers驳回期间序列的Transformers架构并启动了翻转。整个期间序列序列用于创立令牌。而后，期间序列彼此独立启动嵌入示意。留意力对多个期间序列嵌入启动操作。它有点相似于Crossformer，但它的不同之处在于，它遵照规范Transformers架构。

作者在规范期间序列数据集上评价模型目前优于一切其余模型，包括Informer, Reformer, Crossformer等。

这是一篇弱小的论文，由于模型的表现优于现有的模型。然而在某些状况下，它优于模型的数值并不是那么清楚。所以可以优先看看这篇论文并且启动测试。

最后说说TimeGPT，它没有在任何关键会议上被接受，而且它的评价方法也好处可疑，由于它可怜地在互联网上取得了相当多的引见，所以咱们要再提一下：

1、作者没有将他们的结果与其余SOTA类型模型启动比拟，只是援用“测试集包括来自多个畛域的30多万个期间序列，包括金融、网络流量、物联网、天气、需求和电力。”并且没有提供测试集的链接，也没有在他们的论文中说明这些数据集是什么。

2、论文中架构图和模型体系结构的形容十分蹩脚。这看起来就像是作者复制了其余论文的图表，强加上留意力的定义和LLM相关的盛行词汇。

3、作者的Nixtla公司十分小，或许是一家小型初创公司，它能否有足够的计算资源来齐全训练一个“成功的期间序列基础模型”。虽然这样说法好处歧视，然而假设我说我一团体用一周训练了一个LLM，那预计都没人置信，对吧。

OpenAI、谷歌、亚马逊、Meta等公司提供足够的计算资源来创立庞大的模型。假设TimeGPT真的是一个便捷的Transformers模型，并在少量的期间序列数据上训练它，为什么其余机构，甚至团体不能用它的少量gpu做到这一点呢?答案是，事情必需没那么便捷。

期间序列创立“基础模型”的才干目前还不够完善。多元期间序列预测的一个关键组成部分是学习协变量之间的依赖相关。MTS的维度在不同的数据集之间差异很大。关于具备文本数据的Transformers，咱们总是将一个单词映射到一个数字id，而后创立一个特定维度的嵌入。

关于MTS，不只值可以更改，而且在一个数据集上或许有100个变量，而在另一个数据集上只要10个变量。这使得简直无法能设计一切用途的映射层来将不同大小的MTS数据集映射到公共嵌入维度。所以还记得咱们前几天发的Lag-Llama，也只是单变量的预测。

在其余期间序列(即使是那些具备相反数质变量的期间序列)上预训模型不会发生改良的结果(至少在架构下不会)。

总结及未来方向剖析

大言语模型深度学习人工默认

<<超强！深度学习中必知的 79 个关键概念

奥特曼也来助阵 CPU牙膏挤爆 AI生成速度创纪录骁龙8至尊版退场>>