从了解token开局解读AI大模型

2024-11-15

什么是Transformer？

Transformer是一种陈腐的神经网络架构，它在2017年由Google的钻研人员提出，用于处置机器翻译等人造言语处置的义务。Transformer的特点是，它齐全摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN），而是驳回了一种称为自留意力机制（Self-Attention）的方法，来捕捉文本中的长距离依赖相关，提高了模型的效率和准确性。

当天本文将围绕自留意力机制，引见Transformer 的三个关键概念，位置编码、留意力机制和自留意力机制。

位置编码(Positional Encodings)

在人造言语处置义务中,词语的顺序尤为关键。以“小明青睐小红”和“小红青睐小明”为例,这两句话的词语组成齐全一样,仅仅是顺序不同,所表白的意思却南辕北辙。因此,言语模型必定具有掌握词语顺序的才干。

但是,Transformer驳回的自留意力机制是经过单元之间的相关性来启动文本序列的编码，也就是说模型自身并不能感知词语的顺序消息。为了克制这个艰巨,Transformer引入了一种称为位置编码(Positional Encoding)的技巧。

位置编码的思绪很便捷,就是在输入序列中的每个词语前面追加一个位置标志,用不同的数字示意它在句子中的位置。以句子“我爱吃苹果”为例:

我 1 爱 2 吃 3 苹果 4

这样一来,Transformer模型就可以辨别词语的顺序了。这种方法极大地增强了模型处置人造言语的才干。理想上,位置编码使得Transformer可以类比人类大脑处置言语的方式——人脑可以轻松地记住词语出现的期间顺序。Transformer经过位置编码成功了相似的成果。

类比来说，当咱们看一篇长篇小说时，当咱们想搞分明外围境节的出现顺序时，咱们往往不是翻看原文，而是在阅读中就记载下一条期间线，当出现关键剧情时，将其记载在整个期间线的节点之上。之前大火的电影《信条》，置信很多小同伴也都是经过期间线的方式才真正搞分明剧情是如何开展的。

位置编码也好，期间线也罢，其实这局部消息原本就是隐式的存在原始数据之中。咱们的标志是将这局部隐式的结构数据显示的体现进去，使得大模型在编解码数据的环节中，把词语在句子中的相对位置归入出去，进而将这一局部消息嵌入到维度向量中（或许准确说对某些维度发生影响）。

这与人类大脑以期间顺序来认知事物或许组织言语的天性是相似的，而大模型的长处在于领有更大的存储，因此不须要似乎人类大脑普通须要启动关键节点的形象，只需对等的对每一个词语单元启动位置编码即可。（我在这里做了一点适度简化——最后的作者经常使用正弦函数来启动位置编码，而不是便捷的整数 1、2、3、4——但要点是相反的。）

留意力机制(Attention)

在Transformer模型中,位置编码为模型提供了词语顺序消息。而留意力机制则让模型能更自动地经常使用这些消息。

什么是留意力机制呢?便捷来说,它就是准许Transformer模型在生成输入时,参考输入序列中的一切词语,并判别哪些词对步骤更关键、更相关。以英译法翻译为例,当Transformer要翻译一个英文单词时,它会经过留意力机制极速“审视”整个英文输入序列,判别应该翻译成什么法文词语。假设输入序列中有多个相关词语,留意力机制会让模型关注最相关的那个,疏忽其它不太相关的词语。

标注翻译输入与输入关注度的热力求

从人类行为的角度来看,留意力机制就更容易了解了。当咱们阅读一段文字时,基于基因天性以及历史阅历，挑选重点关注的指标区域，获取留意力焦点的才干，从而应用有限的留意力资源从少量消息中极速挑选出低价值消息。大模型的留意力机制的构成就是相似的方式，类比大脑，大模型的天性与阅历则起源于词嵌入构成的词语向量亲密度。经过观察不可胜数的法语和英语句子，模型积攒了什么类型的单词是相互依赖的。

详细来说,Transformer中的留意力机制可以分为两步:

相比于RNN等早期序列模型逐渐处置输入、不可捕捉长距离依赖的方式,留意力机制成功了全局感知,使Transformer可以并行地看到所有输入,这极大地优化了其建模才干。正因如此,Transformer才可以胜任更难的言语了解义务。

自留意力机制(Self-Attention)

在Transformer模型中,除了留意力机制,还有一个愈加弱小的机制叫做自留意力(Self-Attention)。首先咱们说说留意力与自留意力的区别。

可以参考这个例子。比如说一条像蛇的井绳，会极速抓住人的眼球，让人提高警觉，这形容的是留意力。而经过这条井绳出如今水井边，并且一端系在水桶上，咱们判别它是一条井绳而不是蛇，则可类比为自留意力。

自留意力机制的外围理想是,准许模型学习词语之间的相关性,也就是词语与词语之间的依赖相关。以句子“我爱吃苹果”为例,经过自留意力,模型会学习到:

而后在处置时,模型会优先关注这些相关词语,而不是便捷依照顺序一个字一个字翻译。

人类对一个事物的认知不是仅在于事物自身，往往会联合事物所处的环境，并联合与认知事物相关的其余事物作为一个全体来构成最终的认知。自留意力机制在文本中的运行也一样，关键是经过计算单词间的相互影响，来处置长距离依赖疑问。

从认知角度来看,自留意力更贴近人类处置言语的方式。自留意力机制克制了传统序列模型在处置长距离依赖时的局限性。正因如此,自留意力机制成为Transformer模型的“引擎”,可以处置更复杂的言语结构,到达更高的功能。自留意力让Transformer不只可以并行计算,更可以建模非延续的依赖相关,这对处置言语意义至关关键。

总结

Transformer模型之所以能够在人造言语处置义务上取得渺小打破,关键在于其三大外围机制:

这三者相反相成,使得Transformer模型得以模拟人类言语处置的方式,到达了传统RNN模型难以企及的成果。

未来,如何使Transformer模型更易于训练,并能够真歪了解言语的深层语义,而不只是外表方式,仍将是人造言语处置畛域的外围应战。

本文转载自，作者：

<<如何经常使用AI学习一门编程言语

ResNet? 时频图像分类还在用VGG>>

从了解token开局 解读AI大模型

什么是Transformer？

位置编码(Positional Encodings)

留意力机制(Attention)

自留意力机制(Self-Attention)

总结

您可能还会对下面的文章感兴趣：

随便看看

从了解token开局解读AI大模型