期间序列预测基础模型的片面一致测评基准 FoundTS

当天给大家引见一篇华东师范大学联结丹麦奥尔堡大学和松鼠AI颁布的期间序列模型一致评测基准FoundTS,这是一个针对期间序列预测基础模型的基准测评框架,旨在应用不同畛域和特色的数据集对不同的期间序列预测基础模型启动片面、偏心的测评。该论文在一致评测结果的基础上,剖析了现有时序预测基础模型的优缺陷,并为基础模型的优化提出一些可行的方向。

论文题目 :FOUNDTS: COMPREHENSIVE AND UNIFIED BENCHMARKING OF FOUNDATION MODELS FOR TIME SERIES FORECASTING

论文地址 :​ ​​ ​

背景

期间序列预测 (Time Series Forecasting, TSF) 是指依据历史观察来预测未来形态,从而指点相应的决策和行为,是金融剖析、气候预测和动力治理等泛滥畛域的关键义务。

近年来,针对特定畛域数据集启动训练和推理的 特定模型(Specific models) 取得了极速开展,其预测准确度和推理速度清楚优化。但是,这些模型的泛化才干较弱,面对新畛域或新数据时体现欠佳。在多畛域期间序列数据或大规模言语数据上启动预训练的 基础模型(Foundation models) 为优化期间序列预测模型的泛化才干提供了新的或者性,但目前对此类模型的认知还远远无余。关键要素有以下三个方面:

(1)现有基础模型上班的 试验设置不具有分歧性 ,如表1所示,难以仅依据现有结果对不同的基础模型的功能启动偏心分歧的比拟;

(2)干流的期间序列测评基准 关键集中在特定模型 ,触及基础模型的测评基准很少;

(3)现有触及基础模型的测评基准对此类模型的剖析还逗留在定性剖析或 繁多场景测评

为了处置上述疑问,这篇论文提出了一个新的测评基准 FoundTS,以成功对期间序列预测基础模型启动片面、偏心的评价和比拟。FoundTS 涵盖了各种期间序列预测基础模型,包括基于多畛域期间序列数据的预训练模型(Pre-trained models)和基于大规模言语的预训练模型(LLM-based models)。同时,FoundTS 允许不同的预测场景,如零样本(zero-shot)、少样本(few-shot)和全样本(full-shot)。

FoundTS评测框架

FoundTS 提供了一个规范化评价流程,蕴含了三个外围模块:数据(data)、模型(models)、评价(evaluation)。

数据模块 蕴含10个来自不同畛域(Stock, Health, Energy, Electricity, Environment, Traffic, Nature, Banking, Web, Economics)、具有多种特色(Seasonality, Trend, Stationarity, Transition, Shifting, Correlation, Non-Gaussianity)的期间序列数据集,为下游期间序列预测提供了片面的数据允许。

模型模块 涵盖了各类期间序列预测模型,并对其启动了粗疏的分类与引见。

基于多畛域期间序列数据的预训练模型 :论文中依据训练方法从重建、自回归、间接预测以及混合预测四个角度区分引见此类模型;

基于大规模言语的预训练模型 :经过参数高效微调或设计prompt的形式,应用 LLMs 弱小的表征才干和序列建模才干来捕捉期间序列的复杂形式;

特定模型 :经常使用特定数据集启动训练并在相应的数据集启动推理,经常出现框架有:基于CNN的模型、基于Transformer的模型、基于MLP的模型。

评价模块 提供片面的测评场景、可裁减的流程和一致的评价环境:

涵盖 zero-shot、few-shot 和 full-shot 场景,片面评价期间序列预测基础模型在不同测试场景下的体现。

允许对评测流程的多个方面启动灵敏定制,如回看窗口、预测窗口、数据划分与加载、采样战略等,能够对不同模型驳回分歧的评测流程,确保测试结果的偏心与牢靠。

提供各种评价目的(如平均相对误差(MAE)和均方误差(MSE)),从不同角度提供深化的模型功能剖析。

试验剖析

论文在多个不同畛域的数据集上对比了不同的期间序列预测基础模型以及端到端的特定模型在 zero-shot、few-shot 和 full-shot 场景下的功能体现,同时从不同角度对期间序列预测基础模型的优缺陷启动了剖析。

论文比拟了期间序列预测基础模型在不同采样战略下的功能,标明数据采样战略在few-shot学习中起着至关关键的作用,只要在一致的试验设置下才干对模型启动偏心评价。

论文探求了多变量期间序列的通道依赖性对期间序列预测基础模型功能影响,呐喊在构建基础模型时应充沛思考多变量数据的通道依赖性。

论文剖析了不同框架的期间序列预测基础模型之间的功能差异,指出未来须要更深化地钻研模型架构设计,找到功能和参数量之间的平衡。

论文在具有不同清楚特色的数据集上对比了期间序列预测基础模型处置不同特色数据的才干。

论文评价了来自多畛域期间序列数据或大规模言语数据的预训练常识对下游期间序列预测义务的实践效益。

论文经过权衡期间序列预测基础模型在 5% 数据的 few-shot 场景下微调期间与特定模型在 full-shot 场景下从头训练期间,探讨了期间序列预测基础模型的精度与运行效率。

发现与观念

基础模型能否优于特定模型? 期间序列预测基础模型,相比于特定模型,体现出优越的 zero-shot 和 few-shot 的学习才干。但当有足够的训练数据时,基础模型并不总是优于特定模型。

哪些基础模型更优? 期间序列预测基础模型的长处取决于评价的不同方面,没有任何一个基础模型能够在一切方面占据主导位置。

从哪些方面优化基础模型? (1)期间序列预测基础模型应具有愈加通用的、处置多种预测场景的才干;(2)从训练数据、模型架构、预训练战略等角度优化设计以更充沛应用大规模预训练常识;(3)如何在下游义务甚至预训练阶段充沛建模各个通道之间的依赖性,是基础模型应答多变量期间序列的关键疑问之一;(4)正当平衡预测精度与训练、微调、推理老本,是将期间序列预测基础模型启动实践运行无法漠视的疑问。

本文转载自​​,作者:

您可能还会对下面的文章感兴趣: