从BERT到ChatGPT 百页综述梳理预训练大模型演化史
一切的成功都有迹可循,ChatGPT 也不例外。
前不久,由于对 ChatGPT 的评估过于厚道,图灵奖得主 Yann LeCun 被送上了热搜。
在他看来,「就底层技术而言,ChatGPT 并没有什么特意的翻新,」也不是「什么反派性的物品」。许多钻研试验室正在经常使用雷同的技术,展开雷同的上班。更关键的是,ChatGPT 及其面前的 GPT-3 在很多方面都是由多方多年来开发的多种技术组成的,是不同的人数十年奉献的结果。因此,LeCun 以为,与其说 ChatGPT 是一个迷信打破,不如说它是一个像样的工程实例。
「ChatGPT 能否具备反派性」是个充溢争议的话题。但无须置疑,它确实是在此前积攒的多项技术的基础上构建起来的,比如外围的 Transformer 是谷歌在几年前提进去的,而 Transformer 又遭到了 Bengio 关于留意力概念的上班的启示。假设再往前追溯,咱们还能链接到更古早的几十年前的钻研。
当然,群众或者体会不到这种墨守成规的觉得,毕竟不是谁都会一篇一篇去看论文。但关于技术人员来说,了解这些技术的演进环节还是十分有协助的。
在最近的一篇综述文章中,来自密歇根州立大学、航空航天大学、理海大学等机构的钻研者细心梳理了该畛域的几百篇论文,关键聚焦文本、图像和图学习畛域的预训练基础模型,十分值得一读。杜克大学传授、加拿大工程院院士 裴健 , 伊利诺大学芝加哥分校计算机迷信系特聘传授 ),Salesforce AI Research
论文目录如下:
在海外社交平台上,DAIR.AI 联结开创人Elvis S.介绍了这篇综述并取得了一千多的点赞量。
引言
预训练基础模型(PFM)是大数据时代人工默认的关键组成局部。「基础模型」的名字来源于 Percy Liang、李飞飞等人颁布的一篇综述 ——《On the Opportunities and Risks of Foundation Models》,是一类模型及其配置的总称。在 NLP、CV 和图学习畛域,PFM 曾经获取了宽泛钻研。在各种学习义务中,它们体现出了弱小的特色示意学习后劲,如文本分类、文本生成、图像分类、目的检测和图分类等义务。无论是用大型数据集在多个义务上训练,还是在小规模义务上启动微调,PFM 都体现出了优越的性能,这使其极速启动数据处置成为或者。
PFM 和预训练
PFM 基于预训练技术,其目的是应用少量的数据和义务来训练一个通用模型,该模型可以在不同的下游运行中很容易地启动微调。
预训练的想法来源于 CV 义务中的迁徙学习。但看到该技术在 CV 畛域的有效性后,人们也开局应用该技术提高其余畛域的模型性能。
当预训练技术运行于 NLP 畛域时,经过良好训练的言语模型可以捕捉到对下游义务有益的丰盛常识,如常年依赖相关、档次相关等。此外,预训练在 NLP 畛域的清楚好处是,训练数据可以来自任何未标志的文本语料库,也就是说,简直存在着有限量的训练数据可以用于预训练环节。早期的预训练是一种静态技术,如 NNLM 和 Word2vec,但静态方法很难顺应不同的语义环境。因此,人们提出了灵活预训练技术,如 BERT、XLNet 等。图 1 形容了 PFM 在 NLP、CV 和 GL 畛域的历史和演化。基于预训练技术的 PFM 经常使用大型语料库来学习通用语义表征。随着这些开创性上班的引入,各种 PFM 曾经产生,并被运行于下游的义务和运行。
最近走红的 ChatGPT 是 PFM 运行的典型案例。它是从生成性预训练 transformer 模型 GPT-3.5 中微调进去的,该模型应用了少量本文和代码启动训练。此外,ChatGPT 还运行了来自人类反应的强化学习(RLHF),这曾经成为让大型 LM 与人类用意坚持分歧的一种有宿愿的形式。ChatGPT 出色的性能体现或者会给每种类型的 PFM 的训练范式带来转变,比如指令对齐技术、强化学习、prompt tuning 和思想链的运行,从而走向通用人工默认。
本文将重点放在文本、图像和图畛域的 PFM,这是一个相对成熟的钻研分类方法。关于文原本说,它是一个多用途的 LM,用于预测序列中的下一个单词或字符。例如,PFM 可用于机器翻译、问答系统、主题建模、情感剖析等。关于图像,它相似于文本上的 PFM,经常使用渺小的数据集来训练一个适宜许多 CV 义务的大模型。关于图来说,相似的预训练思绪也被用于取得 PFM,这些 PFM 被用于许多下游义务。除了针对特定数据域的 PFM,本文还回忆并论述了其余一些先进的 PFM,如针对语音、视频和跨域数据的 PFM,以及多模态 PFM。此外,一场能够处置多模态义务的的 PFM 的大融合正在产生,这就是所谓的 unified PFM。作者首先定义了 unified PFM 的概念,而后回忆了最近钻研中到达 SOTA 的 unified PFM(如 OFA、UNIFIED-IO、FLAVA、BEiT-3 等)。
依据上述三个畛域现有的 PFM 的特点,作者得出论断,PFM 有以下两大好处。首先,要想提高在下游义务中的性能,模型只有要启动很小的微调。其次,PFM 曾经在品质方面获取了审查。咱们可以将 PFM 运行于义务相关的数据集,而不是从头开局构建模型来处置相似的疑问。PFM 的宽广前景激起了少量的相关上班来关注模型的效率、安保性和紧缩等疑问。
论文奉献与结构
在这篇文章颁布之前,曾经有几篇综述回忆了一些特定畛域的预训练模型,如文本生成、视觉 transformer、目的检测。
《On the Opportunities and Risks of Foundation Models》总结了基础模型的时机微危险。但是,现有的上班并没有成功对不同畛域(如 CV、NLP、GL、Speech、Video)PFM 在不同方面的片面回忆,如预训练义务、效率、效能和隐衷。在这篇综述中,作者具体论述了 PFM 在 NLP 畛域的演化,以及预训练如何迁徙到 CV 和 GL 畛域并被驳回。
与其余综述相比,本文没有对一切三个畛域的现有 PFM 启动片面的引见和剖析。与对先前预训练模型的回忆不同,作者总结了现有的模型,从传统模型到 PFM,以及三个畛域的最新上班。传统模型强调的是静态特色学习。灵活 PFM 对结构启动了引见,这是干流的钻研。
作者进一步引见了 PFM 的一些其余钻研,包含其余先进和一致的 PFM、模型的效率和紧缩、安保以及隐衷。最后,作者总结了未来的钻研应战和不同畛域的放开疑问。他们还在附录 F 和 G 中片面引见了相关的评估目的和数据集。
总之,本文的关键奉献如下:
各个章节的关键内容如下:
论文第 2 章引见了 PFM 的普通概念架构。
第 3、4、5 章区分总结了 NLP、CV 和 GL 畛域中现有的 PFM。
第 6、7 章引见了 PFM 的其余前沿钻研,包含前沿和一致的 PFM、模型效率和紧缩,以及安保和隐衷。
第 8 章总结了 PFM 的关键应战。第 9 章对全文启动了总结。