去掉预训练LLM成果反而优化 预训练大言语模型对期间序列预测真的有用吗
当天给大家引见一篇对于大模型在期间序列运行讨论的上班。这篇文章质疑大言语模型在期间序列预测中能否有效,并对目前最先进的3个基于大言语模型的期间序列预测模型启动试验,发现去掉大言语模型局部,改成一个attention网络,也能取得相反甚至更优的成果。
论文题目:Are Language Models Actually Useful for Time Series Forecasting?
下载地址:
1、背景
随着大言语模型的兴起,一些上班也将其运行到期间序列预测畛域。这类方法普通基于预训练好的NLP畛域的言语模型,将期间序列转换成文本方式输入其中,经过finetune大模型,产出预测结果。典型的代表上班包含OneFitsAll、Time-LLM、LLaTA等上班。
本文质疑的点就是大言语模型在期间序列预测中能否真的有效。经过一系列的对目前先进的大言语模型的试验来看,引入大言语模型并和睦优化成果,甚至会降低成果,并且白白糜费了更多的计算资源。
2、试验方法
本文对3个目前业内最先进的基于大言语模型的期间序列预测方法启动试验,区分是OneFitsAll、Time-LLM、LLaTA。
OneFitsAll:OneFitsAll是基于GPT4的时序预测模型,将期间序列归一化并启动patch处置后,输入预训练GPT4中,finetune其中的position embedding和layer norm参数,其余参数freeze;
Time-LLM:Time-LLM将期间序列转换成token后映射到低维表征,和数据集形容等消息拼接后输入到预训练大模型中,大模型的输入结果再输入到一个线性层启动生成预测结果;
LLaTA:模型分为文本分支和时序分支,文本分支局部将原始期间序列和大模型的word embedding对齐后,输入到大模型中,生成文本表征。时序分支基于原始期间序列数据,经常使用一个adpater对预训练大模型启动finetune,同时将时序分支和文本分支的表征拉近作为辅佐义务。
在试验方法上,针对上述3个大模型时序预测模型,驳回如下方法启动消融试验,甄别大模型在其中的作用。第一种是w/o LLM,间接将大模型局部去掉。第二种是LLM2Attn,将大模型改成一个参数随机初始化multi-head attention结构。第三种是LLM2Trsf,将大模型局部改成一个随机初始化的Transformer结构。经过对比这三种方式和原始模型的成果,就可以分辨出大模型的参数能否对期间序列预测起到作用。
3、试验结果
下表展现了一个基础的消融试验成果图。从图中可以看出,Time-LLM、LLaTA、OneFitsALL等模型中,将大言语模型局部间接改成Transformer,在不同的数据集上成果并没有显著降低。在一些数据集上成果反而优化了。消融模型的成果,一切case上都超越了Time-LLM,22个case超越了Time-LLM,19个数据集超越了OneFitsALL。这说明在这些方法中,预训练的大言语模型并没有施展什么特意关键的作用。
除了预训练参数外,文中对比了大模型所参与的计算开支,性价比能否足够高。文中的消融试验的模型参数量要小于大模型自身的参数量。经过试验对比来看,大模型消耗更多的inference期间,然而成果却不如消融试验的成果。
本文转载自,作者: