高维多变量下的Transformer时序预测建模方法

2024-11-15

当天给大家引见一篇CIKM 2024中的期间序列预测上班，这篇文章针对高维多变量时序预测疑问，提出了一种基于Transformer的建模方法。

论文题目：Scalable Transformer for High Dimensional Multivariate Time Series Forecasting

下载地址：

1.背景

如今的期间序列预测重要钻研点都是如何扩长能够建模的历史长度和未来长度，也就是期间维度上的裁减。比拟少的上班钻研如何建模变量维度上的裁减。

在多变量期间序列建模中，如今的方法重要集中在channel-independ和channel-depend两种模式上。后者只管能思考到变量间的相关，实践上界更高，然而实践运行中成果往往会比channel-independ方法成果差。特意是当变量维度增大后，这种成果差异愈加清楚。

例如文中经过试验验证，Crossformer、iTransformer等channel-independ建模方法，相比PatchTST等channel-independ建模方法，在高维多变量时序预测中平均会差19%。

文中在一个数据集上验证了Crossformer、iTransformer等channel-depend建模方法中，选用变量的数量对成果的影响。选用的变量依照和指标序列的相相关数启动排序，先引入相关度最高的，后引入相关度低的。从图中可以看出，入选用50%的最高相关性变量建模时，成果到达最好，说明引入多变量间相关建模确实可以优化成果。然而当进一步引入更多变量时，成果开局降低。

文中以为，降低的要素重要是随着引入变量的相关性变差，引入了更多噪声，反而影响了模型的学习。比如下图中，先引入的相关变量都和指标序列趋向很像，然而后引入的变量和指标变量差异很大。

2.建模方法

针对上述剖析，为了顺应这种高维多变量建模疑问，文中提出了一种稠密关联矩阵的Transformer建模方法。外围是挑选出相关性比拟高的变量作为指标变量的辅佐序列，再基于Transformer构建期间-空间的二维attention，成功最大化相关序列有效消息的引入。

全体的建模方法如图所示。关于每个序列，依据皮尔逊相相关数，选用和其最相关的topK的其余序列，这些序列作为辅佐序列，和指标序列一同输入到后续的模型中。

这种引入外部序列的方法，会造成一个batch内的样本数量大增。为了减轻内存和计算压力，文中驳回了一种ReIndex方法从新组织数据。原本的建模方法每个batch数据的组织方法如下图灰色局部所示，随机采样多组target-辅佐序列组合输入模型。ReIndex的引入如右图灰色所示，相当于每次只训练一个target序列，而后将其辅佐序列的不同子序列训练采样多组。经过这种模式，省去了对多个target序列的采样，大大降低的计算和内存开支。

在详细的模型结构上，文中驳回了一种2维Transformer。关于指标序列和辅佐序列，都分红多个patch。关于每个patch，加上其对应的期间位置编码，以及其对应的channel位置编码。相比于Crossformer在期间和变量两个维度启动两阶段的attention，本文间接将一切期间、变量维度的patch放到一同启动attention，成功恣意时辰、恣意变量之间的attention计算。

3.试验成果

文中在高维数据集中验证了成果，相比之前的channel-depend和channel-independ方法都取得了清楚的成果优化。

下图展现了引入最相关topK、最不相关topK作为辅佐序列的成果以及不引入辅佐序列的成果对比，可以看到，只要当引入最相关topK个序列时，成果才是最优的，标明辅佐序列和指标序列的相关性，确实是channel-depend建模的关键。

本文转载自，作者：

<<期间序列预测基础模型的片面一致测评基准 FoundTS

介绍系统中多义务学习的优化思绪一文汇总>>

高维多变量下的Transformer时序预测建模方法

1.背景

2.建模方法

3.试验成果

您可能还会对下面的文章感兴趣：

随便看看