Transformer频域消偏优化时序预测准确性

Transformer在期间序列中曾经运行比拟宽泛。然而最近一些针对Transformer的钻研上班指出,Transformer的self-attention机制在建模序列数据时,比拟偏向于学习低频的消息,而疏忽了高频消息,形成频率偏向疑问,影响了预测成果。

在期间序列预测中,这个疑问也存在,为了处置这个疑问,在KDD 2024上,大阪大学宣布了一篇关系上班Fredformer,对Transfomrer在期间序列预测中的这种疑问启动了处置。

论文题目 :Fredformer: Frequency Debiased Transformer for Time Series Forecasting

下载地址 :​ ​​ ​

背景

一些钻研指出,transformer模型在启动期间序列预测时,会存在频率偏向疑问,也就是模型只关注到了序列数据中的低频消息,疏忽了高频消息。这个疑问在期间序列预测畛域雷同存在。比如下图是一些基于Transformer的预测模型,可以看到在预测结果中,模型的预测是比拟平滑的,反映了全体的趋向。然而关于高频趋向却预测不进去。

为了进一步验证这个疑问,这篇文章首先启动了一些case study。预先设定3个频率,依据这些频率组成天然的期间序列数据,经常使用Transformer模型启动训练并预测。下图反响了各个频率的预测成果,训练到50轮后,k1作为低频信号曾经被拟合的loss比拟小了,然而k3这个高频信号却学得很差,说明Transformer期间序列预测模型也存在这种疑问。而右侧的图调整了各个频率成分的权重后,高频的k3被拟合的更好了,k1反而拟合的不好。说明形成这种频率偏向疑问的重要要素是各个成分的权重不同。这有点相似于多义务学习中,不同义务的数据量或许loss差异大,造成模型并重于某几个义务的学习。

2、建模方法

为了处置上述的频率bias疑问,本文从平衡各个频率成分的比例登程,同时又将各个频率成分的建模拆解开,尽量减小各个成分之间的影响。

全体的模型结构如下图所示。首先,经过傅里叶变换将期间序列映射到频域中。在频域中,将期间序列启动分patch处置,并对每个patch的数据启动频域中的归一化。经过这种模式,让每个频率成分在patch内独自建模,又让每个频率成分的振幅值域归一化到同一水平上,防止某一频率主导了模型学习。

关于每一个频率patch启动独立的Transfomrer建模。这个环节相似于iTransformer的操作,在变量维度经常使用Transformer。假定有N个频域patch,有C个变量,那么会有N个Transformer。每个Transformer在变量维度计算self-attention,每个频域的patch独立启动建模。经过这种模式,尽量减小各个频率之间的搅扰。

最终,再将频域的表征经过逆向傅里叶变换映射回时域,经过一个MLP网络映射到最终输入结果。

试验成果

在试验中,作者对比了不同预测窗口的多变量期间序列预测成果,本文提出的方法取得了清楚的成果优化。

从case剖析来看,模型相比其余Transformer模型,在高频信号的预测上有一个清楚的优化,关于极值点的预估愈加准确。

本文转载自​​,作者:

您可能还会对下面的文章感兴趣: