Transformer频域消偏优化时序预测准确性

2024-11-15

Transformer在期间序列中曾经运行比拟宽泛。然而最近一些针对Transformer的钻研上班指出，Transformer的self-attention机制在建模序列数据时，比拟偏向于学习低频的消息，而疏忽了高频消息，形成频率偏向疑问，影响了预测成果。

在期间序列预测中，这个疑问也存在，为了处置这个疑问，在KDD 2024上，大阪大学宣布了一篇关系上班Fredformer，对Transfomrer在期间序列预测中的这种疑问启动了处置。

论文题目 ：Fredformer: Frequency Debiased Transformer for Time Series Forecasting

下载地址 ：

背景

一些钻研指出，transformer模型在启动期间序列预测时，会存在频率偏向疑问，也就是模型只关注到了序列数据中的低频消息，疏忽了高频消息。这个疑问在期间序列预测畛域雷同存在。比如下图是一些基于Transformer的预测模型，可以看到在预测结果中，模型的预测是比拟平滑的，反映了全体的趋向。然而关于高频趋向却预测不进去。

为了进一步验证这个疑问，这篇文章首先启动了一些case study。预先设定3个频率，依据这些频率组成天然的期间序列数据，经常使用Transformer模型启动训练并预测。下图反响了各个频率的预测成果，训练到50轮后，k1作为低频信号曾经被拟合的loss比拟小了，然而k3这个高频信号却学得很差，说明Transformer期间序列预测模型也存在这种疑问。而右侧的图调整了各个频率成分的权重后，高频的k3被拟合的更好了，k1反而拟合的不好。说明形成这种频率偏向疑问的重要要素是各个成分的权重不同。这有点相似于多义务学习中，不同义务的数据量或许loss差异大，造成模型并重于某几个义务的学习。

2、建模方法

为了处置上述的频率bias疑问，本文从平衡各个频率成分的比例登程，同时又将各个频率成分的建模拆解开，尽量减小各个成分之间的影响。

全体的模型结构如下图所示。首先，经过傅里叶变换将期间序列映射到频域中。在频域中，将期间序列启动分patch处置，并对每个patch的数据启动频域中的归一化。经过这种模式，让每个频率成分在patch内独自建模，又让每个频率成分的振幅值域归一化到同一水平上，防止某一频率主导了模型学习。

关于每一个频率patch启动独立的Transfomrer建模。这个环节相似于iTransformer的操作，在变量维度经常使用Transformer。假定有N个频域patch，有C个变量，那么会有N个Transformer。每个Transformer在变量维度计算self-attention，每个频域的patch独立启动建模。经过这种模式，尽量减小各个频率之间的搅扰。

最终，再将频域的表征经过逆向傅里叶变换映射回时域，经过一个MLP网络映射到最终输入结果。

试验成果

在试验中，作者对比了不同预测窗口的多变量期间序列预测成果，本文提出的方法取得了清楚的成果优化。

从case剖析来看，模型相比其余Transformer模型，在高频信号的预测上有一个清楚的优化，关于极值点的预估愈加准确。

本文转载自，作者：

<<GPT Altman Sam

最强开源大模型易主号称超越Llama Grok Mixtral 2>>

Transformer频域消偏优化时序预测准确性

背景

2、建模方法

试验成果

您可能还会对下面的文章感兴趣：

随便看看