2024最新期间序列预测Benchmark TFB

2024-11-15

当天给大家引见一篇VLDB 2024中期间序列预测Benchmark的上班，文章由华东师范大学，华为云，奥尔堡大学联结颁布。该论文提出了TFB（期间序列预测基准测试），这是一个陈腐的智能化基准测试框架，旨在经过蕴含来自十个不同畛域的数据集，并提供一个灵敏、可裁减且分歧的评价流程，对包括统计学习、机器学习和深度学习在内的多种期间序列预测方法启动片面且无成见的评价。

该论文呐喊testing不经常使用drop-last操作，这一影响多个时序Baselines性能的代码bug！

论文题目：TFB: Towards Comprehensive and Fair Benchmarking of Time Series Forecasting Methods**

论文链接：

代码链接：

1、引言

这篇论文试图处置的疑问包括：

疑问1. 数据畛域笼罩无余：现有的期间序列预测方法评价理论只笼罩有限的畛域，不可片面反映方法在多样数据集下的体现。

疑问2. 对传统方法的刻板影响：现有的评价往往疏忽了传统方法，如统计学习，机器学习方法，大局部只关注深度学习方法。

疑问3. 缺乏分歧和灵敏的流程。不同的评价基准经常使用不同的试验设置，如数据划分、归一化方法选用、超参数设置，drop-last操作的经常使用，这使得偏心的比拟变得艰巨。此外，大少数测试基准流程不灵敏，不可允许统计学习、机器学习和深度学习方法的同时评价。

2、drop-last操作说明

现有的一些方法在测试阶段经常使用“删除最后一个批次的数据”的技巧。为了减速测试，理论将数据分红批次。但是，假设咱们摈弃最后一个不完整批次：其中蕴含的样本数量少于批次大小，这会造成不偏心的比拟。例如，在图4中，ETTh2具备长度为2,880的测试序列长度，咱们经常使用大小为512的回溯窗口预测336个未来期间步。假设咱们选用批次大小为32、64和128，那么最后一个批次中的样本数量区分为17、49和113。除非一切方法都经常使用相反的批次大小，否则摈弃这些最后一个批次的测试样本是不偏心的，由于测试集的实践经常使用长度不分歧。图4显示了在ETTh2上经常使用不同批次大小和“删除最后一个批次”技巧的PatchTST、DLinear和FEDformer的测试结果。咱们观察到，在变动批次大小时，方法的性能会出现变动。

因此该论文呐喊testing不经常使用drop-last操作，该论文在testing中没有经常使用drop-last操作。

3、期间序列特色说明

趋向性（Trend）：趋向性是指期间序列随着期间的推移而出现的常年变动或形式。直观地说，它代表了数据漂移的大抵方向。

节令性（Seasonality）：节令性是指期间序列中的变动以特定的距离重复的现象。

颠簸性（Stationarity）：颠簸性是指期间序列的各阶统计特色（如均值、方差…）不随期间的变动而变动。

漂移性（Shifting）：漂移性是指期间序列的概率散布随期间变动的现象。这种行为可动力于系统外部的结构变动、外部影响或随机事情的出现。

转移（Transition）：转移捕捉了期间序列中存在的法令性和可识别的固定特色，例如趋向、周期性的明白体现，或许节令性和趋向同时存在。

相关性（Correlation）：相关性是指多变量期间序列中不同变量或许共享的或许性独特的趋向或形式，标明它们遭到相似的起因或具备某种潜在的相关。

这些特色的公式可从原论文中失掉。

4、TFB：基准细节

数据集：TFB装备了25个多变量和8,068个单变量数据集。对期间序列数据启动特色化剖析，确保所选数据集在不同特色上具备宽泛的散布。对比方法：TFB包括了22种方法。评价设定：为了评价方法的预测准确性，TFB成功了两种不同的评价战略：1) 固定预测；和2) 滚动预测。为了对预测性能启动片面评价，TFB驳回了八个误差度量目的。一致的流程：为了成功方法的公温和片面比拟，TFB引入了一个一致的评价流程，分为数据层、方法层、评价层和报告层。

5、试验

单变量期间序列预测

多变量期间序列预测

不同特色上的性能

依据试验结果，总结了不同方法在各种数据特色上的体现和排名。探讨了基于Transformer的方法、线性方法以及思考通道依赖性的方法在不同场景下的性能差异。钻研了深度学习方法在多变量期间序列预测中的推理期间和参数数量的体现。提供了对于如何选用适宜特定数据集和场景的预测方法的见地。

<<实测腾讯开源的Hunyuan

不外包数据做AI 黄仁勋和印度首富安巴尼对话 CPU摩尔定律已停滞发现第二个缩放定律>>