RNN回归！Bengio新作小道至简与Transformer一较上下

2024-11-15

散落谢环球各地的「RNN神教」信徒，不时置信并等候着RNN回归的那天：

毕竟，仰仗弱小的顺序和上下文感知才干，RNN曾在各种义务中表现冷艳。

直到起初遭逢了反向训练的瓶颈，因Scaling Law而跌落神坛。

RWKV、Mamba、xLSTM等RNN衍生模型接连出现，欲应战Transformer之霸主位置。

就在近日，又有重量级人物下场——

深度学习三巨头之一的Yoshua Bengio，率领团队推出了全新的RNN架构，以小道至简的思维与Transformer一较上下。

钻研人员对传统的两种RNN架构LSTM和GRU，启动了束手无策的革新，从中降生了两个新模型：minLSTM和minGRU。

这俩极简主义的版本究竟怎样样？我们先看疗效。

首先是RNN最大的疑问：训练速度。

上图展现了几种模型在T4 GPU上训练破费的时期，以及新模型带来的减速比。横轴为输入数据的序列长度，批量大小为64。

可以看到，相比于原版的LSTM和GRU，minLSTM、minGRU和Mamba的运转时期不会随序列长度而参与（后3个模型的线在左图中堆叠了）。

当序列长度为4096时，新架构相关于传统版本到达了1300多倍的减速比！

相当于原版GRU须要3年才干做完的事件，minGRU一天就搞定了。

在本文测试的言语建模义务中，minGRU和minLSTM区分在600步左右到达最佳性能点。

相比之下，Transformer须要比minGRU多花大略2000步，训练速度慢了约2.5倍。

对此，YC上的网友示意：「我十分青睐这个新架构的便捷性」。

毕竟，俗话说的好，「最好的PR是那些删除代码的PR」。

模型架构

上方来感触一下极简模型的降生环节。

LSTM在RNN的每个cell中参与了比拟复杂的门控：

三个门控（input gate、output gate、forget gate）和输入的重量，都经过线性投影和非线性激活函数来得出，并且依赖于上一个时辰的暗藏形态ht-1。

这些值再经过线性和非线性计算，获取本时辰的输入ct和暗藏形态ht。

GRU在LSTM的基础上做了一些简化：

少了显式计算ct，用于门控的项也缩减到2个，相应的参数量和计算量也缩小了。

那么我们就从相对便捷的GRU入手，开局革新。

革新的目的是使RNN能够运行并行扫描（Parallel Scan）算法，处置自身训练艰巨的疑问。

便捷来说，就是将网络中的计算改形成vt = at ⊙ vt−1 + bt的方式。

第一步，公式中含有对之前暗藏形态ht-1的依赖，没方法用并行扫描，所以把ht-1间接删掉。

ht-1没了，担任调控ht-1的rt也没用了，删掉。

第二步，双曲正切函数（tanh）担任限度暗藏形态的范围，并减轻因sigmoid（σ）而造成的梯度隐没。

但是如今ht-1和rt都没了，tanh也失去了存在的意义，删掉。

那么最终，minGRU就是上方这三个公式：

相比于原版，参数量和计算量再次缩小，最关键的是能够经常使用并行扫描来清楚放慢训练速度。

经过上方的叙说，minLSTM的由来就很好了解了。

首先还是去除暗藏形态的依赖：

最后，为了保障LSTM输入的尺度与时期有关，以及hidden state在缩放上与时期有关，还须要删掉output gate。

output gate没了，ct也就没必要独自存在了，删掉；剩下的两个门控经过归一化来分配hidden state进入的比例。

——emmm......如同变成GRU了，算了不论了。

最终革新好的minLSTM是上方这个样子：

Were RNNs All We Needed?

全新的RNN搞进去了，能打Transformer吗？

别急，先打内战证实价值。

除了传统的RNN（LSTM和GRU），这里特意关注与Mamba的比拟。

试验在批次大小64的状况下扭转序列长度，测量了模型口头前向传递、计算损失和向后传递计算梯度的总运转时期以及内存占用。

在运转时期方面，minLSTM、minGRU与Mamba成功了相似的效率。

序列长度为512时的运转时期（超越100次的平均值），区分为 2.97、2.72和2.71毫秒；序列长度为4096时，运转时期区分为3.41、3.25和3.15。

相比之下，LSTM和GRU的运转时期随序列长度线性参与。所以序列长度为512时，minGRU和minLSTM的训练减速了175倍和235倍；序列长度为4096时，减速比到达了1324和1361。

内存方面，应用并行扫描算法时会创立更大的计算图，所以minGRU、minLSTM和Mamba ，比传统RNN须要更多的内存（大略多出88%）。

——但这并不关键，由于关于RNN来说，训练时期才是瓶颈。

minLSTM和minGRU的训练效率是经过降落它们的门控对先前暗藏形态的依赖来成功的。

虽然单层minLSTM或minGRU的门控只与输入有关，而与时期有关，但是在深度学习中，模型是经过堆叠模块来构建的。

从第二层开局，minLSTM和minGRU的门也将与时期关系，从而对更复杂的函数启动建模。

下表比拟了不同层数的模型在选用性复制义务上的性能。我们可以看到时期依赖性的影响：将层数参与会大大提高模型的性能。

层数的另一个影响是稳固性，随着层数的参与，精度的方差减小。

此外，虽然minLSTM和minGRU都处置了选用性复制义务，但我们可以看到minGRU在阅历上是一种比minLSTM更稳固的方法（更高的分歧性和更低的方差）。

minLSTM摈弃旧消息并参与新消息，经常使用两组参数（forget gate 和input gate）控制比率。在训练时期，两组参数会向不同的方向启动调整，使得比率更难控制和优化。相比之下，minGRU的摈弃和参与消息由一组参数控制，更容易优化。

选用性复制义务的输入元素相关于其输入是随机距离的，为了处置这项义务，模型须要口头内容感知推理，记住关系token并过滤掉不关系的token。

上表将minLSTM和minGRU与可以并行训练的出名RNN模型启动了比拟（S4，H3，Hyena和Mamba（S6）)，基线结果引自Mamba论文。

在一切这些基线中，只要Mamba的S6，以及本文的minGRU和minLSTM能够处置此义务，表现了LSTM和GRU的内容感知门控机制。

思考D4RL基准中的MuJoCo静止义务，包括三个环境：HalfCheetah、Hopper和Walker。

关于每个环境，模型在三个数据品质不同的数据集上启动训练：Medium（M）、Medium-Replay（M-R）和Medium-Expert（M-E）。

上表将minLSTM和minGRU与各种决策模型启动了比拟，包括原始的Decision Transformer（DT）、Decision S4 （DS4）、Decision Mamba和Aaren。

由结果可知，minLSTM和minGRU的性能优于Decision S4，与Decision Transformer、Aaren和Mamba相媲美（Decision S4的递归转换不是输入感知的，这会影响它的性能）。就平均分数而言，minLSTM和minGRU的表现优于除Decision Mamba之外的一切基线。

最后思考言语建模义务，经常使用nanoGPT框架在莎士比亚的作品上训练字符级GPT。

上图绘制了具备交叉熵损失的学习曲线，可以发现minGRU、 minLSTM、 Mamba和Transformers区分成功了1.548、1.555、1.575和1.547的可比测试损耗。

Mamba的表现略差于其余模型，但训练速度更快（步），minGRU和minLSTM区分破费575步和625步。而Transformer间接比minGRU多了2000 步，慢了大略2.5倍。

Mamba RNN 深度学习

<<十篇经典的深度学习论文！你知道几篇

深度学习中罕用的开源数据集>>

RNN回归！Bengio新作小道至简与Transformer一较上下

模型架构

Were RNNs All We Needed?

您可能还会对下面的文章感兴趣：

随便看看