Transformer动画解说

一、GPT的外围是Transformer

GPT(Generative Pre-trained Transformer) 是一种基于单向Transformer解码器的预训练言语模型,它经过在大规模语料库上的无监视学习来捕捉言语的统计法令,从而具有弱小的文本生成才干。

在GPT(Generative Pre-trained Transformer)模型中,字母G、P、T各自有其特定的含意:

GPT的外围是Transformer

Transformer模型在多模态数据解决中雷同表演着关键角色 ,其能够高效、准确地解决蕴含不同类型(如图像、文本、音频、视频等)的多模态数据。

Transformer的多模态

二、Transformer的上班原理

Transformer上班原理四部曲: Embedding(向量化)、Attention(留意力机制)、MLPs(多层感知机)和Unembedding(模型输入)。

Embedding -> Attention -> MLPs -> Unembedding

阶段一:Embedding(向量化)

“Embedding”在字面上的翻译是“嵌入”,但在机器学习和人造言语解决的高低文中,咱们更偏差于将其了解为一种“向量化”或“向量示意”的技术。

(1)Tokenization(词元化):

Tokenization

(2)Embedding(向量化):

Tokens转换为向量

向量语义相似度

阶段二:Attention(留意力机制)

Attention模块协助嵌入向量构成相关性,即确定它们如何相互关联以构建出无心义的句子或段落。

留意力计算公式

(1)Attention的目标:

降级嵌入向量

建设语义相关性

(2)Attention的上班流程(留意力计算Q、K、V):

留意力计算Q、K、V

阶段三:MLPs(多层感知机或前馈网络)

Transformer的编码器和解码器中的每一层都蕴含一个全衔接的前馈神经网络。FFNN理论蕴含两个线性变换,两边经常使用ReLU激活函数启动非线性解决。

(1)MLPs在Transformer中的

MLPs在Transformer中的位置

(2)MLPs在Transformer中的作用:

MLPs在Transformer中的作用

阶段四:Unembedding(模型输入)

Transformers经过Softmax在生成输入时, 将原始留意力分数转换为输入标志的概率散布。这种概率散布将较高的留意力权重调配给更相关的标志,并将较低的权重调配给不太相关的标志。

(1)Softmax在Transformer的

Softmax在Transformer的位置

(2)Softmax在Transformer的作用:

Softmax在Transformer中的作用

原文链接:​ ​​ ​

您可能还会对下面的文章感兴趣: