一文彻底搞懂论文
GPT-2是一个大规模无监视言语模型,它可以生成连接的文本段落,在许多言语建模基准上成功最先进的功能,并口头基本的阅读了解、机器翻译、问答和总结——一切这些都不须要针对特定义务的训练。
GPT-2 是 GPT-1 的间接裁减,其参数是 GPT-1 的 10 倍以上,并且在超越 10 倍的数据量上启动训练。GPT-2的 训练目的很便捷,就是 预测 40GB 互联网文本中的下一个单词。
接上去分为四局部:摘要、引言、模型、试验,一同来精读论文:GPT-2: Language Models are Unsupervised Multitask Learners(言语模型是无监视多义务学习者)
GPT-2:言语模型是无监视多义务学习者
一、摘要
如何应答BERT超越GPT-1? 自从BERT模型由Google提出并逾越GPT-1后,OpenAI须要新的战略来还击。 GPT-2不只放大了模型和数据量 ,还引入了 zero-shot设定 ,这象征着在下游义务中 无需标签消息或从新训练模型 ,展现了其在更难设定下的新意。
GPT-1的开局符[Start],分隔符[Delim],抽取符[Extract],GPT-2统统不须要了。-- 架构师带你玩转AI
GPT-2引入了zero-shot设定,就是在做下游义务是,不须要下游义务的任何标签消息,也不须要从新训练一个模型,即在更难的一个设定上表现他的一个新意度。
GPT-2亮点一: 更大数据集(百万级网页WebText)人造言语处置义务,如问答、机器翻译、阅读了解以及摘要生成等,理论是经过在特定义务的数据集上启动监视学习来处置的。咱们证实,当在一个名为WebText的蕴含数百万个网页的新数据集上启动训练时,言语模型开局在没有任何明白监视的状况下学习这些义务。
GPT-2亮点二: zero-shot +更大模型参数(15亿参数)咱们最大的GPT-2模型是一个领有15亿参数的Transformer,它在8个测试的言语建模数据集中的7个上,在零样本设置下到达了最先进的结果,但依然未能充沛拟合WebText数据集。
二、引言
传统机器学习系统训练模式是什么? 创立机器学习系统的干流方法是 搜集一个蕴含正确行为示例的训练数据集所需义务训练一个系统来模拟这些行为 ,而后在独立且同散布的保管示例上测试其功能。
这种方法在 造就狭义专家方面 取得了很好的停顿。但是在应答多样化和多变的输入时(阅读了解系统)表现出的往往是不稳固的行为。
多义务学习是什么? 多义务学习是一种训练模型的方法,旨在经过同时处置多个数据集和驳回多个损失函数,使一个模型能够在多个义务上均表现杰出。
在人造言语处置(NLP)畛域,重要驳回的是预训练+微调的模式。 当运行预训练模型到详细的下游义务时,理论须要依据该义务的特点对模型启动微调,而微调模型理论须要少量的有标注数据。
zero-shot的设定是什么? 不须要下游义务的标注消息,不引入模型没有见过的不凡符号( 开局符[Start],分隔符[Delim],抽取符[Extract] )。
GPT-2驳回了不同的战略。它重要关注于言语模型的训练,并在下游义务中驳回zero-shot的设定。这种设定下, GPT-2不须要下游义务的标注消息,也不引入模型没有见过的不凡符号。
狭义的专家 or才干片面的通才? 的系统更适宜被形容为狭义的专家,而非才干片面的通才。咱们宿愿能够朝着构建能够口头多项义务的系统迈进——最终无需为每个义务手动创立和标注训练数据集。
机器学习系统如今在联合大型数据集、高容量模型和监视学习的条件下,关于它们所训练的义务表现杰出。但是,这些系统很软弱,对数据散布和义务规范的庞大变动都很敏感。
GPT-2有更庞大的指标, 争当才干片面的通才 ,只管AGI很悠远,但幻想还是要有的,一个开箱即用,能够口头多义务的GPT, 始终退化,朝着指标行进 -- 架构师带你玩转AI
三、模型
GPT-2模型是什么?该模型在很大水平上遵照了OpenAI GPT-1模型的细节,但做了一些修正。咱们将层归一化移动到了每个子块的输入处,相似于预激活残差网络,并在最后的自留意力块之后减少了一个额外的层归一化。
GPT-1和GPT-2的区别是什么?GPT-1和GPT-2在处置下游义务时的输入模式 有所不同。
GPT-1须要引入额外的符号(开局符、分隔符、完结符)来标识输入的不同局部,并经过微调来学习如何处置这些符号。而GPT-2则驳回了更为繁复的zero-shot设定,间接经常使用与预训练阶段相反的输入格局 ,从而简化了义务处置的流程。
GPT-2的训练范式是什么?GPT-2驳回预训练+zero-shot的训练范式。为成功zero-shot,GPT2在做下游义务时,输入就不能像GPT-1那样在结构输入时参与开局、两边和完结的不凡字符,由于这些不凡字符是模型在预训练时没有见过的。正确的输入应该和预训练模型看到的文本一样,更像一团体造言语。
比如在做机器翻译时,间接可以输入“请将上方一段英文翻译成法语,英文文本”,由于在训练时或者曾经存在很多这样的翻译文本样例,因此模型就可以成功输入一段法语。
是不是觉得很相熟,没错,Zero-Shot就是Prompt的前身, 只管大家如今曾经很习气经过Prompt跟LLM模型启动交互,但是过后提出这个概念还是十分具备前瞻性。 -- 架构师带你玩转AI
四、试验
零样转义务迁徙经常使用什么数据集? WebText,蕴含4500w个链接的文本消息,总计800w的文本和40GB的文字。
这是一个 蕴含少量网页文本的数据集,理论用于人造言语处置(NLP)畛域的模型训练和评价。例如,OpenWebText是一个开源的Web文本数据集,旨在复现和提供Giant OCR'd Web Text(即WebText)数据集,宽泛用于预训练言语模型如GPT-2等。
模型的规格有多大? GPT2也是基于Transformer解码器的架构,作者设计了4种大小的模型。 GPT-2模型的四个版本(Small、Medium、Large、XL)区分具备约1.17亿、3.45亿、7.62亿和15亿参数,
参考资料
原文链接: