时序预测中的多类型模型组合建模打算

2024-11-15

期间序列建模中很多种类型的结构可以选用，比如Transformer、CNN、RNN，以及最近被验证有效的MLP、Mamba等结构。但是，不同模型都有特定的潜在长处和劣势。因此，如今越来越多的时序预测模型优化上班，驳回了多模型组合的建模方式。

当天这篇文章，就给大家引见一下多模型组合建模的外围理路，以及几篇近期宣布的多模型组合时序预测上班，在一个模型中同时经常使用不同类型的模型结构，成功各个结构之间的长处互补。

早期模型组合建模打算

在Transformer运行到期间序列预测建模后，越来越多的模型组合方法被开掘并运行。例如RNN+Transformer、CNN+Transformer等结构。这关键是由于Transformer和CNN、RNN等模型可以成功比拟好的长处互补。Transformer的长处在于长周期的attention建模，但是由于其只经过位置编码失掉时序相关，对时序建模的才干并不强。而RNN、CNN则比拟长于时序数据的处置，但是关于长周期的建模才干较弱。因此，RNN/CNN配合Transformer的建模方法逐渐走进钻研者视线。

比如在 Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting 这篇文章中，在Transformer底层加一个CNN，应用CNN的序列建模才干让输入的时序样本点感知到高低文消息。Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting也是相似的思绪，在Transformer底层加一个RNN，将RNN的序列建模才干和Transformer的长周期建模才干结合起来。

除了CNN和RNN外，如今很多上班将MLP和Transformer结合在一同。MLP的作用和CNN十分相似，也是将单个样本点的消息，经过邻近点的全体编码，构成语义更强的时序表征，再输入到后续Transfomrer模型中。 PatchA Time Series is Worth 64 Words: Long-term Forecasting with Transformers 中提出的PatchTST就是这个建模思绪。

近期模型组合新上班

接上去给大家引见2篇近期的期间序列预测多模型组合上班。这两篇文章都融合了包含Transformer、CNN、RNN、Mamba、MLP等结构中的至少3个。

第一篇是 Mamba or Transformer for Time Series Forecasting? Mixture of Universals (MoU) Is All You Need 。这篇文章提出了一种多模型融合的建模方法，成功对期间序列长短期消息的综合应用。模型中引入了包含Mamba、Transformer、CNN等多种模型结构启动不同维度的期间序列消息抽取。

文中的外围优化点包含2个方面，一个是在底层期间序列的patch处置上启动了优化，另一个是模型结构上的多种结构融合思绪。在patch处置上，将期间序列分红多个patch后，普通经常使用一个MLP启动映射，文中进一步经常使用MoA结构处置patch。MoA是一个多个子模块组成的patch消息处置器，每个子模块经常使用一个稠密门控网络，对表征的局部元素启动激活。经过多组这种子模块的融合，每一组成功不同类型pattern的消息提取，最后加到一同，作为patch的表征。

在模型结构方面，全体是Mamba->FFN->CNN->Transformer的组织方式。Mamba用来提取时序相关的基础消息，FFN参与非线性，CNN扩展每个patch的视线，Transformer最终启动长周期的期间序列建模。

第二篇是 PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting 。这篇文章提出了一种融合Transformer、RNN、CNN的期间序列预测模型，其中RNN+CNN用来启动每个变量期间序列的时序维度编码，Transformer用来启动变量间相关的建模，相似iTransformer的方式。

文中的外围是RNN+CNN构建的档次时序编码网络。由于期间序列存在不同粒度的周期性，不同的粒度之间又存在相关着必定的相关。为了描写这种多频率消息，文中驳回了档次CNN的方式启动建模。关于每一层CNN，经常使用不同的kernel size和stride size，提取不同粒度的消息，并经过CNN起到了缩短序列长度的作用。

在启动每个档次的CNN编码后，每一层的CNN编码输入与上一层CNN编码融合后，输入到GRU中，应用GRU的时序建模才干编码每个粒度的序列。不同粒度的GRU编码结果最后经过加权融合的方式，生成每个变量期间序列的最终表征结果。

在失掉单变量的时序表征后，Transformer启动变量间相关建模。将每个变量期间序列的表征看成是一个token，经常使用self-attention在变量维度计算相关性并启动融合，相似iTransformer中的方式。

总结

组合模型是期间序列预测中的一个关键钻研疑问。没有一种模型结构可以完美处置期间序列预测面临的任何疑问，经过各类模型结构的组合，让各个模型成功长处互补，可以很大水平上优化期间序列预测模型的功能。

本文转载自，作者：

<<多个数据集取得SOTA成果纯Transformer架构上交最新时空预测模型PredFormer

高效拓展LLM高低文窗口北大联结MSRA提出PoSE 用短输入模拟长样本>>

时序预测中的多类型模型组合建模打算

早期模型组合建模打算

近期模型组合新上班

总结

您可能还会对下面的文章感兴趣：

随便看看