How You Much Need? Do Transformer结构长处 Attention

2024-11-15

前言

本期基于凯斯西储大学（CWRU）轴承数据，启动 Transformer 的结构长处启动解说，结合论文《How Much Attention Do You Need? 》，探求不同模块对缺点分类义务的影响力。

1《How Much Attention Do You Need? 》

1.1 论文解析

论文提到三个观念：

（1）Source attention on lower encoder layers brings no additional benefit (x4.2).

解释：

（2）Multiple source attention layers and residual feed-forward layers are key (x4.3).

解释：

（3）Self-attention is more important for the source than for the target side (x4.4).

解释：

2.1 详细结构探求

（1）双向 RNN 交流多头留意力

RNN嵌入Transformer后，上图展现了对原生RNN逐渐添加Transformer的各个构件后的成果。从下面的逐渐对比环节可以看到，原生RNN的成果在始终稳固优化。然而原本的Transformer相比，功能依然有差距。

（2）CNN 交流多头留意力

上图展现了对CNN启动始终添加Transformer的各个构件后的环节以及其对应成果。雷同的，功能也有不同幅度的优化。然而也与原本的Transformer功能存在一些差距。

（3）论文论断：

咱们发现基于RNN的模型受益于多源留意机制和残余前馈块。另一方面，基于CNN的模型可以经过层归一化和前馈块来改良。这些变动使基于RNN和CNN的模型更凑近Transformer。此外，咱们还展现了可以成功地组合体系结构。

咱们发现自我留意在编码器方面比在解码器方面关键得多，即使没有自我留意的模型也体现得十分好。关于咱们评价的数据集，在大少数状况下，编码器侧具备自关注的模型以及解码器侧具备RNN或CNN的模型与Transformer模型相比具备竞争力。

2结合缺点诊断启动探求

2.1 探求指标剖析

依据上述论断，编码器结构在特色提取环节中表演着关键角色，而编码器结构又由多头留意力、前馈神经网络、残差衔接等局部组成。结合缺点诊断义务，咱们可以锁定2个钻研对象：

2.2 多头留意力机制的长处

（1）多角度关注：

不同的头可以从不同的角度和细粒度的档次来关注输入序列的不同局部，从而捕捉更丰盛的特色和相关。

（2）提高模型的表白才干：

多头机制使得模型可以在不同的子空间中并行学习，这增强了其表白复杂相关和形式的才干。

（3）稳固训练：

经过缩放点积和多头的并行计算，模型能更好地解决长序列并稳固梯度。

3轴承缺点数据的预解决

参考之前的文章，启动缺点10分类的预解决，凯斯西储大学轴承数据10分类数据集：

train_set、val_set、test_set 均为依照7：2：1划分训练集、验证集、测试集，最后保留数据

3.2 缺点数据预解决与数据集制造

4 编码器全体结构的试验对比

4.1对比模型为：

4.2西储大学十分类数据集试验对比

（1）模型 A：

模型评价：

准确率、准确率、召回率、F1 Score

（2）模型 B：

模型评价：

准确率、准确率、召回率、F1 Score

4.3西北大学齿轮箱轴承缺点-五分类数据集试验对比

（1）模型 A：

模型评价：

准确率、准确率、召回率、F1 Score

（2）模型 B：

模型评价：

准确率、准确率、召回率、F1 Score

5 试验对比结果剖析

经过两个数据集的对比试验，咱们可以发现，Transformer 编码器层在缺点信号分类义务上取得了不错的成果，然而仅用多头留意力机制分类成果有必定水平的降低，证实Transformer 编码器全体结构在缺点信号分类义务上的优越性！大家还可以进一步粗疏的探求结构中的其余局部。

本文转载自，作者：

<<数据才是AIGC的霸道！UltraEdit 基于指令的细粒度图像编辑数据集万样本

一大堆Llama3.1>>

How You Much Need? Do Transformer结构长处 Attention

前言

1《How Much Attention Do You Need? 》

1.1 论文解析

2.1 详细结构探求

（1）双向 RNN 交流多头留意力

（2）CNN 交流多头留意力

（3）论文论断：

2结合缺点诊断启动探求

2.1 探求指标剖析

2.2 多头留意力机制的长处

（1）多角度关注：

（2）提高模型的表白才干：

（3）稳固训练：

3轴承缺点数据的预解决

3.2 缺点数据预解决与数据集制造

4 编码器全体结构的试验对比

4.1对比模型为：

4.2西储大学十分类数据集试验对比

（1）模型 A：

（2）模型 B：

4.3西北大学齿轮箱轴承缺点-五分类数据集试验对比

（1）模型 A：

（2）模型 B：

5 试验对比结果剖析

您可能还会对下面的文章感兴趣：

随便看看