Transformers学习高低文强化学习的时期差分方法

2024-11-15

高低文学习指的是模型在推断时学习才干，而不须要调整其参数。模型（例如transformers）的输入包括高低文（即实例-标签对）和查问实例（即提醒）。而后，模型能够依据高低文在推断时期为查问实例输入一个标签。高低文学习的一个或者解释是，（线性）transformers的前向流传在高低文中成功了对实例-标签对的梯度降低迭代。在本文中，钻研人员经过结构证实了transformers在前向流传中也能成功时期差异（TD）学习，并将这一现象称为 高低文TD 。在训练transformers经常使用多义务TD算法后展现了高低文TD的产生，并启动了切实剖析。此外，钻研人员证实了transformers具备足够的表白才干，可以在前向流传中成功许多其余战略评价算法，包括残差梯度、带有资历跟踪的TD敌对均鼓励TD。

高低文学习曾经成为大型言语模型最清楚的才干之一。在高低文学习中，模型的输入（即提醒）包括高低文（即实例-标签对）和一个查问实例。而后，模型在推断时期（即前向流传）为查问实例输入一个标签。模型输入和输入的一个示例可以是：

其中，“5 → number; a → letter”是蕴含两个实例-标签对的高低文，“6”是查问实例。依据高低文，模型推断查问“6”的标签为“number”。值得留意的是，整个环节在模型的推断时期内成功，而不须要调整模型的参数。

在（1）中的示例说明了一个监视学习疑问。在经典的机器学习框架中，这个监视学习疑问通常经过首先基于高低文中的实例-标签对训练一个分类器来处置，经常使用诸如梯度降低之类的方法，而后要求分类器预测查问实例的标签。值得留意的是，钻研标明，transformers能够在前向流传中成功这个梯度降低训练环节，而不须要调整任何参数，为高低文学习提供了一个或者的解释。

逾越监视学习，智能触及到顺序决策，其中强化学习曾经成为一个成功的范式。transformers在推断时期能否口头高低文RL，以及如何口头？为了处置这些疑问，钻研人员从马尔可夫鼓励环节MRP中的一个便捷评价疑问开局。在MRP中，代理程序在每个时期步中从一个形态转换到另一个形态。用（S0，S1，S2，...）示意代理访问的形态序列。在每个形态下，代理程序会接纳到一个鼓励。用（r(S0)，r(S1)，r(S2)，...）示意代理程序在道路中接纳到的鼓励序列。评价疑问是预计值函数v，该函数计算每个形态未来代理程序将收到的希冀总（折扣）鼓励。所需的输入输入的一个示例可以是：

有目共睹的是，上述义务与监视学习基本不同，由于指标是预测值v(s)，而不是即时鼓励r(s)。此外，查问形态s是恣意的，不用是S3。时期差分学习TD是处置这类评价疑问（2）的最罕用的RL算法。而且妇孺皆知，TD不是梯度降低。

在这项上班中，钻研人员做出了三个重要奉献。首先，经过结构证实transformers具备足够的表白才干来在前向流传中成功TD，这一现象咱们称为高低文TD。换句话说，transformers能够经过高低文TD在推断时期内处置疑问（2）。逾越最间接的TD，transformers还可以成功许多其余战略评价算法，包括残差梯度（Baird，1995）、带有资历跟踪的TD（Sutton，1988）敌对均鼓励TD（Tsitsiklis和Roy，1999）。特意地，为了成功平均鼓励TD，transformers须要经常使用多头留意力和适度参数化的提醒，例如，

这里，“□”充任一个虚构占位符，在推断时期transformers将经常使用它作为“记忆”。第二，经过在多个随机生成的评价疑问上训练transformers与TD，实证地证实了在推断中产生了高低文TD。换句话说，学习的transformer参数与咱们在证实中的结构十分相符。将这种训练打算称为多义务TD。第三，经过展现关于单层transformer，证实了成功高低文TD所需的transformer参数在多义务TD训练算法的不变汇合的子集中，来弥正当论和实证结果之间的差距。

论文：

原文链接：

<<PersonaGym 评价角色agent与LLMs

详细教程！探求DALL·E的弱小配置！>>

Transformers学习高低文强化学习的时期差分方法

您可能还会对下面的文章感兴趣：

随便看看