时序预测中的多类型模型组合建模打算
期间序列建模中很多种类型的结构可以选用,比如Transformer、CNN、RNN,以及最近被验证有效的MLP、Mamba等结构。但是,不同模型都有特定的潜在长处和劣势。因此,如今越来越多的时序预测模型优化上班,驳回了多模型组合的建模方式。
当天这篇文章,就给大家引见一下多模型组合建模的外围理路,以及几篇近期宣布的多模型组合时序预测上班,在一个模型中同时经常使用不同类型的模型结构,成功各个结构之间的长处互补。
早期模型组合建模打算
在Transformer运行到期间序列预测建模后,越来越多的模型组合方法被开掘并运行。例如RNN+Transformer、CNN+Transformer等结构。这关键是由于Transformer和CNN、RNN等模型可以成功比拟好的长处互补。Transformer的长处在于长周期的attention建模,但是由于其只经过位置编码失掉时序相关,对时序建模的才干并不强。而RNN、CNN则比拟长于时序数据的处置,但是关于长周期的建模才干较弱。因此,RNN/CNN配合Transformer的建模方法逐渐走进钻研者视线。
比如在 Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting 这篇文章中,在Transformer底层加一个CNN,应用CNN的序列建模才干让输入的时序样本点感知到高低文消息。Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting也是相似的思绪,在Transformer底层加一个RNN,将RNN的序列建模才干和Transformer的长周期建模才干结合起来。
除了CNN和RNN外,如今很多上班将MLP和Transformer结合在一同。MLP的作用和CNN十分相似,也是将单个样本点的消息,经过邻近点的全体编码,构成语义更强的时序表征,再输入到后续Transfomrer模型中。 PatchA Time Series is Worth 64 Words: Long-term Forecasting with Transformers 中提出的PatchTST就是这个建模思绪。
近期模型组合新上班
接上去给大家引见2篇近期的期间序列预测多模型组合上班。这两篇文章都融合了包含Transformer、CNN、RNN、Mamba、MLP等结构中的至少3个。
第一篇是 Mamba or Transformer for Time Series Forecasting? Mixture of Universals (MoU) Is All You Need 。这篇文章提出了一种多模型融合的建模方法,成功对期间序列长短期消息的综合应用。模型中引入了包含Mamba、Transformer、CNN等多种模型结构启动不同维度的期间序列消息抽取。
文中的外围优化点包含2个方面,一个是在底层期间序列的patch处置上启动了优化,另一个是模型结构上的多种结构融合思绪。在patch处置上,将期间序列分红多个patch后,普通经常使用一个MLP启动映射,文中进一步经常使用MoA结构处置patch。MoA是一个多个子模块组成的patch消息处置器,每个子模块经常使用一个稠密门控网络,对表征的局部元素启动激活。经过多组这种子模块的融合,每一组成功不同类型pattern的消息提取,最后加到一同,作为patch的表征。
在模型结构方面,全体是Mamba->FFN->CNN->Transformer的组织方式。Mamba用来提取时序相关的基础消息,FFN参与非线性,CNN扩展每个patch的视线,Transformer最终启动长周期的期间序列建模。
第二篇是 PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting 。这篇文章提出了一种融合Transformer、RNN、CNN的期间序列预测模型,其中RNN+CNN用来启动每个变量期间序列的时序维度编码,Transformer用来启动变量间相关的建模,相似iTransformer的方式。
文中的外围是RNN+CNN构建的档次时序编码网络。由于期间序列存在不同粒度的周期性,不同的粒度之间又存在相关着必定的相关。为了描写这种多频率消息,文中驳回了档次CNN的方式启动建模。关于每一层CNN,经常使用不同的kernel size和stride size,提取不同粒度的消息,并经过CNN起到了缩短序列长度的作用。
在启动每个档次的CNN编码后,每一层的CNN编码输入与上一层CNN编码融合后,输入到GRU中,应用GRU的时序建模才干编码每个粒度的序列。不同粒度的GRU编码结果最后经过加权融合的方式,生成每个变量期间序列的最终表征结果。
在失掉单变量的时序表征后,Transformer启动变量间相关建模。将每个变量期间序列的表征看成是一个token,经常使用self-attention在变量维度计算相关性并启动融合,相似iTransformer中的方式。
总结
组合模型是期间序列预测中的一个关键钻研疑问。没有一种模型结构可以完美处置期间序列预测面临的任何疑问,经过各类模型结构的组合,让各个模型成功长处互补,可以很大水平上优化期间序列预测模型的功能。
本文转载自,作者: