Transformers学习高低文强化学习的时期差分方法
高低文学习指的是模型在推断时学习才干,而不须要调整其参数。模型(例如transformers)的输入包括高低文(即实例-标签对)和查问实例(即提醒)。而后,模型能够依据高低文在推断时期为查问实例输入一个标签。高低文学习的一个或者解释是,(线性)transformers的前向流传在高低文中成功了对实例-标签对的梯度降低迭代。在本文中,钻研人员经过结构证实了transformers在前向流传中也能成功时期差异(TD)学习,并将这一现象称为 高低文TD 。在训练transformers经常使用多义务TD算法后展现了高低文TD的产生,并启动了切实剖析。此外,钻研人员证实了transformers具备足够的表白才干,可以在前向流传中成功许多其余战略评价算法,包括残差梯度、带有资历跟踪的TD敌对均鼓励TD。
高低文学习曾经成为大型言语模型最清楚的才干之一。在高低文学习中,模型的输入(即提醒)包括高低文(即实例-标签对)和一个查问实例。而后,模型在推断时期(即前向流传)为查问实例输入一个标签。模型输入和输入的一个示例可以是:
其中,“5 → number; a → letter”是蕴含两个实例-标签对的高低文,“6”是查问实例。依据高低文,模型推断查问“6”的标签为“number”。值得留意的是,整个环节在模型的推断时期内成功,而不须要调整模型的参数。
在(1)中的示例说明了一个监视学习疑问。在经典的机器学习框架中,这个监视学习疑问通常经过首先基于高低文中的实例-标签对训练一个分类器来处置,经常使用诸如梯度降低之类的方法,而后要求分类器预测查问实例的标签。值得留意的是,钻研标明,transformers能够在前向流传中成功这个梯度降低训练环节,而不须要调整任何参数,为高低文学习提供了一个或者的解释。
逾越监视学习,智能触及到顺序决策,其中强化学习曾经成为一个成功的范式。transformers在推断时期能否口头高低文RL,以及如何口头?为了处置这些疑问,钻研人员从马尔可夫鼓励环节MRP中的一个便捷评价疑问开局。在MRP中,代理程序在每个时期步中从一个形态转换到另一个形态。用(S0,S1,S2,...)示意代理访问的形态序列。在每个形态下,代理程序会接纳到一个鼓励。用(r(S0),r(S1),r(S2),...)示意代理程序在道路中接纳到的鼓励序列。评价疑问是预计值函数v,该函数计算每个形态未来代理程序将收到的希冀总(折扣)鼓励。所需的输入输入的一个示例可以是:
有目共睹的是,上述义务与监视学习基本不同,由于指标是预测值v(s),而不是即时鼓励r(s)。此外,查问形态s是恣意的,不用是S3。时期差分学习TD是处置这类评价疑问(2)的最罕用的RL算法。而且妇孺皆知,TD不是梯度降低。
在这项上班中,钻研人员做出了三个重要奉献。首先,经过结构证实transformers具备足够的表白才干来在前向流传中成功TD,这一现象咱们称为高低文TD。换句话说,transformers能够经过高低文TD在推断时期内处置疑问(2)。逾越最间接的TD,transformers还可以成功许多其余战略评价算法,包括残差梯度(Baird,1995)、带有资历跟踪的TD(Sutton,1988)敌对均鼓励TD(Tsitsiklis和Roy,1999)。特意地,为了成功平均鼓励TD,transformers须要经常使用多头留意力和适度参数化的提醒,例如,
这里,“□”充任一个虚构占位符,在推断时期transformers将经常使用它作为“记忆”。第二,经过在多个随机生成的评价疑问上训练transformers与TD,实证地证实了在推断中产生了高低文TD。换句话说,学习的transformer参数与咱们在证实中的结构十分相符。将这种训练打算称为多义务TD。第三,经过展现关于单层transformer,证实了成功高低文TD所需的transformer参数在多义务TD训练算法的不变汇合的子集中,来弥正当论和实证结果之间的差距。
论文:
原文链接: