多token预测 Meta等最新钻研优化大模型推理效率

2024-11-15

GPT-4、Gemini系列、Llama-3等开闭源大模型，理论经常使用的是下一个token预测（Next-token Prediction）的损失函数启动预训练。

这种方法只管弱小，但有很多局限性，例如，须要少量的训练数据才干使模型到达人类儿童的智商，并且随着模型参数的增大推理效率会变差。

因此，Meta、巴黎理工大学和巴黎萨克雷大学提出了一种全新训练方法多token预测（Multi-token Prediction）， 在训练的环节中要求模型在每个位置上同时预测接上去的n个Token，以优化模型推理效率，并且不会参与预训练期间 。

钻研人员在130亿、67亿、30亿等多种不同参数的模型对该技术启动了综合评价。结果显示，130亿参数模型在 HumanEval上处置疑问才干提高了12%，在 MBPP上处置才干提高了17%，并且推理效率也更好。

论文地址：

多token预测架构引见

为了有效成功多Token预测,钻研人员设计了一种奇妙的模型架构。该架构蕴含一个共享的Transformer骨干网络,用于从输入失掉高低文示意。

而后该高低文示意被并行输入到n个独立的输入头网络中,每个输入头担任预测一个未来Token。在推理阶段,只有经常使用单个下一Token预测，输入头即可启动自回归生成。而其余输入头则可被用于减速模型的推理效率。

关于训练语料中的每个位置，模型须要经常使用独立的输入头预测接上去的n个Token。将多Token预测作为辅佐训练义务，可以提高模型在代码和人造言语文本方面的义务功能，而不会参与训练期间。

降落GPU内存经常使用

为了处置多token预测或者造成GPU内存经常使用量参与的疑问，钻研人员开发了一种前向和后向流传顺序，模型能够缩小在内存中同时存储的梯度数量，从而降落了内存经常使用量使得训练愈加高效。

在前向流传环节中，模型会首先经过共享骨干生成潜在示意，而后按顺序计算每个独立输入头的前向流传。关于每个输入头，计算终了后立刻启动后向流传，并监禁该头的两边数据，而不是等到一切输入头的前向流传成功后才启动。

在每个输入头的后向流传中，累积梯度到共享骨干，而不是在一切输入头计算终了后才启动。这样可以确保在任何时刻，内存中只存在一个输入头的梯度。

优化推理效率

钻研人员发现，将多token预测与自推测解码相结合，可以进一步优化大模型的推理效率。与传对抗一token解码不同的是，自推测解码准许模型一次性性生成多个token，而后应用额外的输入头并行验证和优化这些预测。

这种方法清楚缩小了模型生成文本所需的步骤，从而放慢了模型的全体推理效率并缩小了对算力的消耗。

钻研人员在不同参数的模型试验了该优化效果，结果显示，比传统的优化推理效率优化了3倍左右。

原文链接:

多token预测 Meta等最新钻研 优化大模型推理效率