反派新架构掀翻Transformer！有限高低文处置 2万亿token碾压Llama 2

2024-11-15

继Mamba之后，又一勇于应战Transformer的架构降生了！

来自Meta、南加州大学（USC）、CMU和UCSD的钻研人员提出了全新的神经网络架构——Megalodon（巨齿鲨）。

这是专为有效处置「有限高低文」长度的LLM预训练，以及推理而设计的架构。

论文地址：

咱们都知道，Transformer架构个在处置长高低文时，会遭到二次复杂度，以及长度外推才干弱的限度。

虽然已有次二次方处置打算（诸如线性留意力，形态空间模型），但它们在预训练效率，甚至下游义务的准确率上，理论还不迭Transformer。

Megalodon的产生，就是为了处置有限处置高低文的难题。

同时，它可以同时成功高效训练（增加通讯和计算量），以及高效推理（坚持恒定的KV缓存）。

值得一提的是，在与Llama 2的间接比拟中，Megalodon在处置70亿参数和2万亿训练token的义务上，不只训练更高效，而且准确率也超越了Transformer。

详细来说，Megalodon的训练损失为1.70，位于Llama2-7B（1.75）和 13B（1.67）之间。

这一扭转范式的翻新代表着AI畛域的渺小飞跃，Megalodon开启了计算效率和性能的新时代。

GPT-3颁布以来最大里程碑

网友示意，先是谷歌，又是Meta，有限高低文离咱们更进一步，LLM将会监禁出有限后劲。

还有人以为「有限高低文长度，相对是游戏规定的扭转者」！

更有甚者，初创公司CEO称，「这是自GPT-3颁布以来最大的里程碑，但却没有任何动态？！

Megalodon就相当于是AGI的基础」。

「Meta的Megalodon是一项打破性停顿，对AGI具备关键意义。它的有限高低文长度模拟了人类的认知，成功了无缝义务切换」。

论文作者Hao Zhang示意，这是一种全新代替Transformer的架构。

论文作者Beidi Chen称，「留意力虽好，但你不要求完整的留意力机制」！

普林斯顿助理传授Tri Dao示意，「将SSM/RNN/EMA与留意力相联合是取得更高品质、更长高低文和更快推理的方法！Griffin、Jamba、Zamba和如今的Megalodon都是很好的例子」。

反派性架构，训练更稳固

那么，Megalodon架构驳回了怎么的设计，才干取得如此优秀的体现？

据引见，它基于MEGA架构启动了改良，并新增了多个技术组件。

首先，复杂指数移动平均（CEMA）组件是一种全新技术，裁减了MEGA中经常使用的多维阻尼指数移动平均方法到双数域，可以增强模型处置复杂数据的才干。

其次，钻研人员提出了一种翻新的归一化技术——「时期步归一化层」。

它将传统的组归一化技术裁减到自回归序列建模义务中，准许模型在处置序列数据时，启动有效的归一化。

以往，「层归一化」（Layer Normalization）与Transformer相联合性能，虽令人印象深入。

但很清楚，层归一化并不能间接增加时期步长或顺序维度的外部协变量偏移。

另外，「组归一化」（Group Normalization）虽比「层归一化」在CV义务中取得改良，但它却不可间接运行于Transformer的自回归序列建模，因未来消息会经过期期步维度的均值和方差走漏。

如下图所示，c展现了Megalodon架构中，层规范化和时期步规范化的方法。

最后，钻研人员为了加弱小规模LLM预训练的稳固性，提出了将归一化留意力，和带有两跳残差的预归一化相联合的性能。

这种性能可以优化模型的学习环节，提高训练的稳固性。

下图3中，a是Megalodon的完整框架草图。

两边和左边两张图区分引见了，预归一化和带有两跳残差预归一化的性能。

2T token训练，性能逾越Llama2-7B

在详细试验评价中，钻研人员将Megalodon裁减到70亿参数规模，并将其运行于2万亿token的大规模LLM预训练中。

此外，作者还在中/小参数规模的序列建模基准上启动了试验，包含Long Range Arena (LRA) 、Speech Commands上的原始语音分类、ImageNet-1K上的图像分类，以及WikiText-103和PG19上的言语建模。

结果显示，在这些义务中，Megalodon在各种数据形式下的体现清楚优于一切最先进的基线模型。

数据学习效率

经过训练损失图以及多个benchmark的结果可以看出，Megalodon比Transformer在7B参数下有更好的数据学习效率。

计算效率

针对不同的4K和32K高低文长度，Megalodon这一架构的预训练的计算效率也是十分强的。

学术基准上短高低文评价

详细来说，钻研人员在短高低文（4K token）的规范学术基准上，对Megalodon与Llama 2，以及开源基础模型启动了比拟。

在相反的2万亿token训练后，Megalodon-7B的体现清楚优于Llama2-7B。

长高低文评价

针对不同长高低文困惑度，证实了Megalodon可以应用很长的高低文启动下一个token预测的才干。

图5显示了，验证数据集在4K到2M各种高低文长度下的困惑度（PPL）。

在Scroll数据集中的长高低文QA义务中，Megalodon在NaQA上取得最佳F1，并与Llama 2 Long相竞争。

中等规模基准评价

在Long Range Arena（LRA）的测试中，新架构清楚增加了分块留意力和全留意力之间的性能差距。

其余评测集，如原始语音分类、ImageNet-1K、WikiText-103和PG-19的结果如下：

一些感想

这里quote一下这项钻研原作者的一些感悟和教训：

经过这个名目，钻研者们也体会到了在大模型时代做新的模型架构时要留意的疑问。总结来说：

原文链接:

<<WebGPU减速开发者必备神器！ 120种架构允许 Transformers.js v3震撼颁布

当你钻研过了900个开源大模型名目后你能学到什么>>

反派新架构掀翻Transformer！有限高低文处置 2万亿token碾压Llama 2

GPT-3颁布以来最大里程碑

反派性架构，训练更稳固

2T token训练，性能逾越Llama2-7B

一些感想

您可能还会对下面的文章感兴趣：

随便看看