一文彻底搞懂GPT
GPT-3是一个具有 1750 亿个参数的自回归言语模型 ,比任何以前的非稠密言语模型多 10 倍 。关于一切义务,GPT-3 均 无需任何梯度降级或微调即可运行 ,义务和少样本演示齐全经过与模型的文本交互来指定。
可以生成资讯文章样本 ,而人类评价者很难将这些样本与 人类撰写的文章 区离开来。
接上去分为四部分:摘要、引言、模型、试验,一同来精读论文:GPT-3: Language Models are Few-Shot Learners(言语模型是少样本学习者)
GPT-3:言语模型是少样本学习者
一、摘要
为什么说GPT-3是自回归言语模型 ? 自回归模型是一种统计模型,它假定的值是过去值的函数。在人造言语处置(NLP)中,自回归言语模型应用这一原理,依据曾经生成的文本内容来预测下一个词或字符。
在生成文本时,GPT-3会依据 曾经生成的文本序列 预测下一个最或者的词或字符 ,从而逐渐生成完整的文本。
为什么说OpenAI从GPT-3开局暴力美学? 与前代模型相比,GPT-3在参数数量上成功了渺小的飞跃。 GPT-3是一个领有1750亿个参数的大型言语模型,这是其“暴力”的一面。OpenAI从此走上了一条始终参与预训练数据,疯狂怼参数的成功之路。
GPT-3亮点一: 超大规模参数, GPT-3领有1750亿个参数,这一数字是 GPT-2的100多倍 (GPT-2为15亿参数),比任何以前的非稠密言语模型多10 倍。这种规模的优化使得 GPT-3能够捕捉到愈加复杂的言语特色和常识 ,从而具有更强的言语了解和生成才干。
GPT-3亮点二: 少样本学习(不启动梯度降级或微调),GPT-3在少样本学习(Few-shot Learning)方面体现出色,它能够在不启动梯度降级或微调的状况下,仅经过高低文消息和大指示例来学习和成功义务。这种才干被称为“in-context learning”,即模型在预训练环节中曾经学到了少量的义务形式,推理时无需再修正模型的权重就能口头不同的义务。
GPT-3亮点三: 出色的文章生成才干,GPT-3能够基于给定的主题或揭示生成连接、人造的文章,且品质之高以致于人类评价人员难以辨别其生成的文章与实在文章之间的差异。
二、引言
Few-shot的设定是什么? GPT-2驳回了zero-shot设定,在新意度上很高,然而有效性却比拟低。而GPT-3则是尝试处置GPT-2的有效性,启动Few-shot设置, 即模型在做下游义务时,可以看到一些义务的样例,而不是像GPT-2那样啥样例都不给。
传统两阶段形式(Pre-training + Fine-tuning)存在哪些疑问?传统二阶段训练形式 依赖于少量有标签数据启动微调 ,须要 高昂的数据失掉和标注老本。同时 微调是过拟合了预训练的训练数据,造成模型泛化才干受限。
为什么GPT-3只驳回无监视预训练? GPT-3经过大规模无监视预训练降低了对标签数据的依赖,并与人类学习形式相似,经过大规模预训练来积攒言语常识和阅历,并经过 “in-context learning” 来极速顺应新义务。
什么是高低文学习(In-Context-Learning,ICL)? 高低文学习,是一种机器学习方法,它准许GPT-3等大规模预训练言语模型(LLM)在不须要调整模型参数的状况下,仅经过几条下游义务的示例就能了解义务并给出满意的回答
三、模型
GPT-3模型是什么 ? 咱们经常使用了与GPT-2相反的模型和架构,包含其中所述的修正后的初始化、预归一化和可逆分词,但不同的是,咱们在Transformer的层中经常使用了交替的密集和部分带状稠密留意力形式,这与Sparse Transformer相似。
GPT-3模型训练形式是什么?在GPT-3的训练环节中,一个关键的翻新点是In-context-learning才干。这种才干准许模型在不须要调整外部参数的状况下,仅经过了解高低文中的示例和揭示来口头义务
四、试验
GPT-3的训练数据是什么? GPT-3 的训练数据重要基于 Common Crawl,但为了优化数据品质,钻研人员在数据预处置阶段采取了三个关键步骤: 数据过滤、数据去重、参与高品质数据。
模型的规格有多大? GPT-3的模型和GPT-2的模型是一样的,稍微有点改变,把transformer换成了Sparse Transformer中的结构,并设计8个不同大小的模型。
参考资料
原文链接: