Transformer动画解说
一、GPT的外围是Transformer
GPT(Generative Pre-trained Transformer) 是一种基于单向Transformer解码器的预训练言语模型,它经过在大规模语料库上的无监视学习来捕捉言语的统计法令,从而具有弱小的文本生成才干。
在GPT(Generative Pre-trained Transformer)模型中,字母G、P、T各自有其特定的含意:
GPT的外围是Transformer
Transformer模型在多模态数据解决中雷同表演着关键角色 ,其能够高效、准确地解决蕴含不同类型(如图像、文本、音频、视频等)的多模态数据。
Transformer的多模态
二、Transformer的上班原理
Transformer上班原理四部曲: Embedding(向量化)、Attention(留意力机制)、MLPs(多层感知机)和Unembedding(模型输入)。
Embedding -> Attention -> MLPs -> Unembedding
阶段一:Embedding(向量化)
“Embedding”在字面上的翻译是“嵌入”,但在机器学习和人造言语解决的高低文中,咱们更偏差于将其了解为一种“向量化”或“向量示意”的技术。
(1)Tokenization(词元化):
Tokenization
(2)Embedding(向量化):
Tokens转换为向量
向量语义相似度
阶段二:Attention(留意力机制)
Attention模块协助嵌入向量构成相关性,即确定它们如何相互关联以构建出无心义的句子或段落。
留意力计算公式
(1)Attention的目标:
降级嵌入向量
建设语义相关性
(2)Attention的上班流程(留意力计算Q、K、V):
留意力计算Q、K、V
阶段三:MLPs(多层感知机或前馈网络)
Transformer的编码器和解码器中的每一层都蕴含一个全衔接的前馈神经网络。FFNN理论蕴含两个线性变换,两边经常使用ReLU激活函数启动非线性解决。
(1)MLPs在Transformer中的
MLPs在Transformer中的位置
(2)MLPs在Transformer中的作用:
MLPs在Transformer中的作用
阶段四:Unembedding(模型输入)
Transformers经过Softmax在生成输入时, 将原始留意力分数转换为输入标志的概率散布。这种概率散布将较高的留意力权重调配给更相关的标志,并将较低的权重调配给不太相关的标志。
(1)Softmax在Transformer的
Softmax在Transformer的位置
(2)Softmax在Transformer的作用:
Softmax在Transformer中的作用
原文链接: