纯MLP模型到达新SOTA 基于序列
当天给大家引见最近的一篇探求如何在更好地建模通道(channel)之间的相关性的多元期间序列文章。文章旨在处置通道独立(channel independent)方法不足对通道之间相关性的应用,以及通道依赖(channel dependent)方法不够鲁棒的疑问。这篇文章,提出了一种陈腐的中心化结构传递不同通道的消息,相比于散布式结构如Attention,Mixer等,这种中心化的结构既降落了计算开支,而且提高了关于意外通道的鲁棒性,以更低的复杂度取得更好的功能。
论文题目 :SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion
下载地址 :
论文代码 :
背景引见
在多元期间序列畛域,学术界存在两种建模模式,一种是通道独立(channel independent)方法,一种是通道依赖(channel dependent)方法。
通道独立方法将多元期间序列将多个通道的序列看做多条单元期间序列,经常使用一个一致的单元时序预测模型启动预测,这种方法因其在非颠簸数据上的杰出鲁棒性被泛滥先进方法驳回,但是其疏忽了通道之间的相关,阻碍了其进一步的功能优化。
通道依赖方法应用特定的通道消息融合模块成功通道间消息的交互,但是这些方法要么过于依赖通道之间的相关性造成不足足够的鲁棒性反抗序列的非颠簸性,要么经常使用了复杂的相关建模模块如Attention使得复杂渡过高难以裁减。
因此, 如何应用通道独立的鲁棒性,并且设计更鲁棒和高效的通道交互模块,是先进多元时序预测方法必定要思考的疑问。
为了处置上述疑问,文章关键有以下几个奉献:
提出了Series-cOre Fused Time Series(SOFTS)模型,这是一种基于MLP的便捷模型,具备较低的复杂度但体现出最先进的功能。
提出了STar Aggregate-Redistribute(STAR)模块,作为SOFTS的基础。STAR设计为一种中心化结构,经常使用一个外围来聚合和替换各通道的消息。与Attention等散布式结构相比,STAR不只降落了复杂度,还提高了对通道意外的鲁棒性。
最后,经过宽泛的试验,咱们验证了SOFTS的有效性、可裁减性以及鲁棒性。
成功方法
这篇文章提出了一个十分便捷且高效的基于MLP的方法,其名字为Series-cOre Fused Time Series forecaster (SOFTS)。正如其名,该方法经过多个通道的序列示意和整个多元序列的外围示意融合来成功通道之间相关的建模。
关键架构如图下图所示。可以看到, SOFTS和iTransformer一样,经常使用序列级别的embedding,提取每个通道的示意,不同的是,SOFTS经过一种星型聚合散发模块(STar Aggregate Redistribute module, 简称STAR)提取不同通道的序列之间的相关性,替换不同序列的消息。最后,SOFTS经过线性层对每个通道的未来做出预测
STAR是整个SOFTS方法的外围,它针对性地处置了现有通道交互模块的两个疑问: (1) Attention等模块要求两两对比不同通道并计算相似度,造成平方级别的复杂度(2)这种两两比拟易受通道自身的品质影响,而在事实的非颠簸数据上,往往存在很多意外通道 。为了成功高效性和鲁棒性,STAR自创了计算机网络结构中的中心化架构,相比于深度学习里罕用的散布式架构如Attention, Mixer, GNN等,STAR能够将复杂度增加到线性级别的同时,并且减小意外通道的影响。
详细而言,多个通道的序列示意首先经过一个MLP映射,而后经过一个pooling操作获取一个外围(core)向量,这个外围向量综合了不同序列的特色,代表了整个序列的全局消息,而后将这个外围向量拼接到每个示意后,并用另一个MLP层启动融合。整个环节的计算复杂度只与通道数量,序列长度等呈 线性相关 。
试验结果
在试验成果上,本文提出的SOFTS模型结构在现有的多元时序预测benchmark上均取得了比拟显著的优化。在下表展现出的24个结果中,有21个是第一,3个是第二。
基于纯MLP结构,SOFTS能以更小的计算和存储代价取得更好的功能,如右图所示,以更快的推理和更小的内存消耗取得了最好的功能。且因为SOFTS模型的线性复杂度,其更易裁减到更大规模的数据集和疑问中,如左图所示,对比了相异功能较好的iTransformer和PatchTST模型,SOFTS在通道迅速增长的状况下照旧可用,而另两个模型则迅速超越罕用的24G显存下限。
经过STAR模块,SOFTS能够调整意外序列的表征,下图(a)示意了进入STAR之前的序列示意,意外的通道出如今远离反常散布的位置,在这种示意上预测仅能取得0.414的预测误差,而经过STAR调整后,这些通道的示意被从新调整,依据不同序列的特色聚类到相似的反常通道左近,其预测功能也被优化至0.374,优化幅度达9%。其功能受通道噪声的影响也更小,如下图(c)。因此,驳回STAR结构的SOFTS更具鲁棒性。
总结
虽然通道独立已被证实是提高多变量期间序列预测鲁棒性的有效战略,但通道间的相关性是进一步优化功能的关键消息。之前的方法在提取相关性时面临着模型复杂性和功能之间的两难困境。在本文中,咱们经过引入Series-cOre Fused Time Series预测器(SOFTS)处置了这一难题。SOFTS在坚持低复杂度的同时,成功了最先进的功能,并且经过翻新的STar Aggregate-Redistribute(STAR)模块高效地捕捉了通道间的相关性。
本文转载自,作者: