多token预测 Meta等最新钻研 优化大模型推理效率
GPT-4、Gemini系列、Llama-3等开闭源大模型,理论经常使用的是下一个token预测(Next-token Prediction)的损失函数启动预训练。
这种方法只管弱小,但有很多局限性,例如,须要少量的训练数据才干使模型到达人类儿童的智商,并且随着模型参数的增大推理效率会变差。
因此,Meta、巴黎理工大学和巴黎萨克雷大学提出了一种全新训练方法多token预测(Multi-token Prediction), 在训练的环节中要求模型在每个位置上同时预测接上去的n个Token,以优化模型推理效率,并且不会参与预训练期间 。
钻研人员在130亿、67亿、30亿等多种不同参数的模型对该技术启动了综合评价。结果显示,130亿参数模型在 HumanEval上处置疑问才干提高了12%,在 MBPP上处置才干提高了17%,并且推理效率也更好。
论文地址:
多token预测架构引见
为了有效成功多Token预测,钻研人员设计了一种奇妙的模型架构。该架构蕴含一个共享的Transformer骨干网络,用于从输入失掉高低文示意。
而后该高低文示意被并行输入到n个独立的输入头网络中,每个输入头担任预测一个未来Token。在推理阶段,只有经常使用单个下一Token预测,输入头即可启动自回归生成。而其余输入头则可被用于减速模型的推理效率。
关于训练语料中的每个位置,模型须要经常使用独立的输入头预测接上去的n个Token。将多Token预测作为辅佐训练义务,可以提高模型在代码和人造言语文本方面的义务功能,而不会参与训练期间。
降落GPU内存经常使用
为了处置多token预测或者造成GPU内存经常使用量参与的疑问,钻研人员开发了一种前向和后向流传顺序,模型能够缩小在内存中同时存储的梯度数量,从而降落了内存经常使用量使得训练愈加高效。
在前向流传环节中,模型会首先经过共享骨干生成潜在示意,而后按顺序计算每个独立输入头的前向流传。关于每个输入头,计算终了后立刻启动后向流传,并监禁该头的两边数据,而不是等到一切输入头的前向流传成功后才启动。
在每个输入头的后向流传中,累积梯度到共享骨干,而不是在一切输入头计算终了后才启动。这样可以确保在任何时刻,内存中只存在一个输入头的梯度。
优化推理效率
钻研人员发现,将多token预测与自推测解码相结合,可以进一步优化大模型的推理效率。与传对抗一token解码不同的是,自推测解码准许模型一次性性生成多个token,而后应用额外的输入头并行验证和优化这些预测。
这种方法清楚缩小了模型生成文本所需的步骤,从而放慢了模型的全体推理效率并缩小了对算力的消耗。
钻研人员在不同参数的模型试验了该优化效果,结果显示,比传统的优化推理效率优化了3倍左右。
原文链接: