高低文长度初次扩大至千级别清华大学最新颁布一致时序预测模型实用各类数据集

2024-11-15

当天给大家引见一篇清华大学的期间序列预测最新上班，提出了一致的Transformer时序预测模型，能同时处置单变量和多变量时序预测，并将时序预测的高低文长度初次扩大到千级别。

论文题目：TIMER-XL: LONG-CONTEXT TRANSFORMERS FOR UNIFIED TIME SERIES FORECASTING

下载地址：

1.背景

构建相似NLP畛域的一致大模型是时序预测畛域近期钻研的焦点。只管前序曾经涌现很多上班，然而这些建模方法只能处置最多几百长度的高低文序列，比如依据历史200个数据点预测未来时辰的序列值。而NLP中的建模可以应用千级别甚至万级别的高低文消息。历史序列长度的无余，造成时序预测模型不可依据完整的、长周期的历史消息启动预测，影响了预测成果。

为了处置上述疑问，本文构建了基于Decoder-only Transformer模型的一致期间序列预测模型Timer-XL，可以同时处置单变量和多变量的时序预测，并同时建模变量间相关，对比其余SOTA模型成功了成果优化。

2.Next Token Prediction义务

相似NLP中的言语模型，Timer-XL经常使用了Next Token Prediction义务启动模型训练。在言语模型中，Next Token Prediction义务的指标是依据前面的token，预测下一个token是什么。在期间序列中，Time-XL将token定义为一个窗口内的期间序列，也就是一个patch作为一个token。优化的指标就变成了预测下一个patch的期间序列，以MSE为指标启动拟合。

上述方式只实用于单变量期间序列。为了扩大到多变量期间序列，Timer-XL驳回了多元Next Token Prediction的建模方式。全体可以了解为，每个变量依然独立的预测下一个token，然而会依据一切变量的历史序列来预测各个变量的下一个token，公式可以示意为如下方式：

经过这种多变量Next Token Prediction的扩大，模型可以同时建模序列相关和变量间相关，成功了从1D建模到2D建模的扩大。

3.模型结构

Timer-XL全体基于Transformer Decoder的模型结构，位置编码驳回目前支谣言语模型经常使用较多的RoPE。

其中一个外围疑问是，引入多元Next Token Prediction义务后，如何构建attention。文中提出了TimeAttention模块，其基本思绪也很便捷，在预测每一个变量的值时，经过attention mask的方式让其只和各个变量该时辰之前的值启动attention。比如下图中预测A序列的第3个token的值，会和A、B的第一个时辰、第二个时辰的tokne计算attention。

此外，这种attention mask的方式也可以灵敏引入变量间相关的建模。比如可以依据两个变量之间能否相互依赖，修正整个attention mask的结构方式，融合期间（序列）和空间（变量间）的相关。

4.试验成果

在试验局部，文中对比了和各类时序预测模型，包含统计模型、深度模型等SOTA方法的成果，本文的全体MSE都取得了较显著的降低。

试验局部也重点论证了Timer-XL的通用性，一个模型可以用于各类数据集，包含在训练数据内的数据集，以及非训练数据的数据集，有较强的泛化性。

本文转载自，作者：

<<多项图文义务取得SOTA成果阿里达摩院最新多模态大模型引见

清华大学NeurIPS24 时序大模型AutoTimes 结合In>>

高低文长度初次扩大至千级别 清华大学最新颁布 一致时序预测模型 实用各类数据集

1.背景

2.Next Token Prediction义务

3.模型结构

4.试验成果

您可能还会对下面的文章感兴趣：

随便看看

高低文长度初次扩大至千级别清华大学最新颁布一致时序预测模型实用各类数据集