一文详解视觉Transformer模型紧缩和减速战略 量化

论文链接 : ​ ​​ ​

视觉Transformer(ViT)在计算机视觉畛域标记性地成功了一次性反派,逾越了各种义务的最先进模型。但是,它们的实践运行遭到高计算和内存需求的限度。本钻研经过评价四种关键的模型紧缩技术:量化、低秩近似、常识蒸馏和剪枝,来处置这一应战。系统地剖析和比拟了这些技术及其组合在优化ViT以顺应资源受限环境方面的成果。片面试验评价标明,这些方法在模型准确性和计算效率之间成功了平衡的折中,为在边缘计算设施上的更宽泛运行铺平了路线。

引见

Transformer,由Vaswani等人引入,以其弱小的数据建模才干、可伸缩性以及杰出的捕捉长距离依赖性的才干,彻底扭转了机器学习。来源于人造言语处置(NLP)畛域,取得了机器翻译和文本摘要等方面的成功,Transformer如今将其适用性裁减到计算机视觉义务,如图像分类和目的检测。

最近,它们的才干曾经在多模态情感剖析畛域获取了应用,其中它们整合和解释多样的数据流——文字、视觉和声响——以评价情感反响。Transformer的运行还裁减到了医疗保健畛域,促成了疾病检测、医学影像剖析以及电子肥壮记载的处置等畛域的提高。这些技术在开发预测模型、提高诊断准确性和共性化治疗战略方面至关关键,展现了Transformer对影响患者护理的渺小后劲。

与之前NLP畛域的钻研不同,该畛域的钻研人员在长序列中处置softmax-attention的二次复杂度,正如Child等人所指出的,而Vision Transformers(ViTs)处置较短的、固定长度的输入序列。因此,在ViTs中,softmax-attention在总浮点运算(FLOPs)中占比拟小,提出了一套共同的优化应战,并强调了对专门的模型紧缩战略的需求。

Vision Transformer(ViT),这是一种源自NLP方法学的翻新架构,曾经证明了将图像 patch转换为由Transformer块处置的 token 序列可以成功,有时甚至逾越传统的CNN架构的准确性。这一打破曾经催生了图像处置畛域的一次性范式转变。

但是,ViT的高性能随同着数量庞大的参数集,数量到达数亿个,在推理环节中会发生相当大的内存和计算开支。因此,关于ViTs的模型紧缩技术的开发和改良曾经变得至关关键,尤其是在工业运行中,效率和资源治理至关关键。

与深度学习模型的钻研相比,Vision Transformers的模型紧缩畛域依然相对未被开发。本文系统地讨论了ViTs的模型紧缩战略,重点关注量化、低秩近似、常识蒸馏和剪枝。经过深化的比拟剖析,评价了这些技术对模型效率的集体和群体影响。钻研还讨论了却合不同方法的潜在协同效应,旨在提高性能。宽泛的试验结果证明,本文提出的方法有助于在维持准确性和提高计算效率之间取得良好的平衡,这关于实践部署至关关键。

关系上班

量化

量化曾经成为促成神经网络高效推理的基石技术。这个环节触及将网络转换为低比特示意,从而缩小计算需求和内存占用,并最小化对模型性能的影响。这项技术的关键方面是确定权重的适当裁剪范围。Krishnamoorthi倡议经过评价层的卷积滤波器内的一切权重来确定这个范围,而Shen等人则驳回了一种分组量化方法来处置Transformer。为了减轻量化或者引入的精度损失,提出了量化感知训练(QAT)。QAT包含经常使用量化模型的浮点示意启动规范的前向和反向传递,而后在每次梯度更新后从新量化模型参数,从而在保管精度的同时应用量化的好处。

低秩近似

Vision Transformer(ViT)应用了自留意力机制,这实质上触及到二次计算复杂度,这对可裁减性造成了严重应战。Chen等人指出ViT外部的留意力矩阵实质上具备低秩特性,为复杂度降低提供了时机。在这些留意力矩阵上应用低秩矩阵迫近发生为缩小计算老本的有出路的方法。

曾经为此目的开发了各种方法,包含基于Nyström的方法、Performer和Linformer,每种方法都具备共同的成功方式,并适用于在微和谐验证阶段与预训练的ViT模型启动集成。此外,如Chen等人所倡议的,将低秩近似与稠密留意力机制结合起来,已被证明能发生更精细的迫近,增强了ViT的效率和有效性。

常识蒸馏

常识蒸馏是一种精细的模型紧缩技术,其中经过应用老师模型的软标签,训练一个紧凑的“在校生”模型来模拟一个更复杂的“老师”模型。这些软标签因其丰盛的消息内容而被以为在在校生模型中的体现通常优于经常使用硬标签启动训练的状况。软标签在增强在校生学习方面的有效性已被Yuan等人和Wei等物证明。

在这个畛域的一个新停顿是由Touvron等人引入的Vision Transformers中的蒸馏 token 。这个 token 相似于类 token ,但专门用于捕捉老师的预测,经过自留意机制介入优化蒸馏环节。这些定制的方法曾经证明在传统的蒸馏技术上取得了相当大的收益,突显了针对Transformer的优化战略的后劲。

剪枝

剪枝是一种被宽泛认可的方法,经过缩小Vision Transformers的维度复杂性来简化它们的架构。这项技术的外围是为每个模型维度调配一个关键性分数,准许基于这些分数对被以为不太关键的维度启动选用性消弭。这种有针对性的缩小旨在在坚持模型准确性的同时坚持持重的剪枝比例。杨等人提出的维度重调配战略或者被整合到剪枝环节中,进一步提高模型的性能。

幽默的是,钻研标明,经过剪枝的模型有时或者会在性能上超越原始模型,这标明剪枝不只可以简化模型,还可以增强模型的性能。

方法论

量化

基本概念

量化的总体目的是将模型参数(θ)和两边激活图的精度降低到较低的精度格局,例如8位整数,同时最小化对模型泛化性能的影响。这个环节的初始步骤触及定义一个量化函数,能够将权重和激活图映射到一组团圆值。用于此目的的罕用函数如下所示:

其中,Q代表量化映射函数,r示意实值输入(例如,权重、激活),S是一个缩放因子,是一个整数零点。这种机制被称为平均量化,确保了却果值的等距距离。值得留意的是,还存在代替的非平均量化战略。此外,原始实值r可以经过一种称为反量化的环节从其量化对应项Q(r)近似得出:

在量化中,由于量化自身固有的舍入误差,近似值r ̃或者与r不同。量化的一个关键方面是确定最佳的缩放因子S,它有效地将实值r分红团圆的段落:

后训练量化

后训练量化(PTQ)经过间接调整权重来简化量化环节,而无需进一步启动微调。但是,这种效率或者会造成清楚的精度降低,由于量化自身固有的精度损失。

Liu等人观察到,在Transformer架构中将量化运行于LayerNorm和Softmax层时,存在清楚的精度降低。Lin等人将这些差异归因于LayerNorm层和留意力映射值中激活值的极化散布。详细来说,LayerNorm层输入中存在清楚的通道间变同性(如下图1左侧所示),当驳回逐层量化方法时,会发生相当大的量化误差。此外,留意力求中存在少量小值散布,只要稠密的意外值凑近1,这进一步加剧了在平均量化战略下性能降低的疑问。

为了处置这些应战,Lin等人提出了一种陈腐的量化方法,应用LayerNorm的二次幂尺度和Softmax层的对数整数Softmax,旨在减轻传统量化方法带来的不利影响。

量化感知训练

间接将量化运行于齐全训练好的模型或者会有意中扰动模型参数,造成清楚的性能降低。一种有效的战略是经常使用量化参数从新训练模型,从而疏导模型走向更无利的损失。量化感知训练(QAT)是一个突出的技术,可用于此目的。在QAT中,规范的前向和后向环节在浮点示意的模型上口头,但在每次梯度更新后从新量化参数,确保模型顺应量化惹起的变动。

学习步长量化(LSQ)是该畛域的一个提高,它改良了量化器的性能环节,并经过优化量化距离在量化性能方面设定了新的基准。相似地,DIFFQ引入了一种可微分的模型紧缩技术,防止了须要像直通预计器(STE)这样的梯度近似方法。经过经常使用伪量化噪声,DIFFQ在训练时期成功了量化环节的近似,这是齐全可微的,从而更容易地调整权重和量化比特深度。

常识蒸馏

常识蒸馏技术,如软蒸馏和硬蒸馏,促成了复杂的“老师”模型向便捷的“在校生”模型的常识传输。软蒸馏并重于最小化老师模型和在校生模型的硬化对数输入之间的Kullback-Leibler(KL)散度。这正式由蒸馏目的所捕捉:

剪枝

Vision Transformers中的剪枝关键集中于经过缩小模型的复杂性来缩小参数的数量,详细来说是经过调整暗藏层之间的权重核的维度。这个目的可以方式化为:

另外,Yu等人驳回KL散度来计算关键性分数,重点关注在数据集Ω上具备特定模块和没有特定模块时模型性能之间的差异。这种方法既可以启动层内剪枝,也可以启动跨模块剪枝:

其中,qi对应于完整模型的损失,pi对应于去除剪枝权重后的损失。近期的翻新引入了愈加巧妙的关键性评分系统。Tang等人设计了一种评分,反映了每个图像块对最终误差的通常影响,提高了图像块精简的效率。Rao等人结合了部分和全局特色,对 token 的关键性启动了更片面的评价。雷同,Yi等人将各种评分综合到一个一致的损失函数中,进一步完善了剪枝环节。

低秩近似

鉴于自留意力的低秩性质的正式证明,应用这一属性启动低秩近似成为提高计算效率的战略选用。这种近似旨在坚持准确性,同时清楚降低时期和空间复杂度,近似为O(n),即使是在与预先存在的或新训练的模型集成时。

这是由于近似计算是在接纳到输入后启动的。存在各种低秩近似的方法,包含基于Nyström的方法,如Nyströmformer和SOFT,它们经过Nyström方法线性化了自留意力。代替的线性化技术,如Linformer 和Performer,以及结合低秩和稠密留意力机制的战略,进一步提高了近似的准确性。

试验

本节详细比拟了运行于Vision Transformers的各种模型紧缩技术,包含量化、常识蒸馏、剪枝和低秩近似。此外,还调查了却合这些方法以确定性能目的改善的协同后劲。

试验设置

试验框架建设在Tesla V100-SXM2 16GB GPU上,PyTorch作为关键的代码成功平台。咱们的数据集经常使用范围限于CIFAR-10和CIFAR-100,这是由于计算资源的限度。感兴味的关键目的包含模型大小和推理速度,抵赖了准确性和这些效率参数之间的固有掂量。因此,最佳的紧缩技术应该在准确性上对模型简直没有影响,同时在模型大小上有清楚的降低,并且在推理速度上有优化。将跨CIFAR-10和CIFAR-100数据集的比拟剖析结果系统地呈如今下表1和表2中。

不同模型紧缩方法的比拟

在评价模型大小对模型紧缩的影响时,咱们发现量化和剪枝战略能够在简直不损失准确性的状况下清楚减小模型大小。值得留意的是,量化技术,特意是灵活量化,体现出了较高的有效性,将模型大小减小至25倍。

雷同,权重剪枝,特意是驳回便捷的关键性评分,不能成功模型大小和准确性之间的最佳平衡。剪枝率为0.1(示意剪枝了10%的参数)造成与未剪枝的ViT相比,CIFAR-10和CIFAR-100数据集的清楚准确性降低。进一步的调查显示,如下图3所示,大少数参数被以为是十分关键的(评分高于0.99),这标明了关于权重剪枝而言,简单方式的关键性评分存在固有的局限性。改良或者来自于整合更复杂的关键性评分或驳回像缩小输入图像块或精简之类的战略,而不是间接的权重剪枝。

在推理速度方面,不同模型紧缩战略体现出一系列的改良,以常识蒸馏为中心的方法尤为突出,因其在效率方面的收益。值得留意的是,虽然DeiT基础模型并没有教训清楚的尺寸缩减,但其推理速度简直是规范Vision Transformer(ViT)的两倍,同时简直坚持了准确性。在CIFAR-10数据集上观察到了一个幽默的案例,即DeiT微型性能成功了95.43%的准确率,这个数字与原生 ViT十分凑近,但其速度参与了四倍,仅紧缩到了原始模型大小的6%。

此外,将Nyströmformer技术运行于ViT展现了准确性和速度之间巧妙的平衡,特意遭到landmark数量(m)的选用的影响。选用较大的m值会提高近似精度,但会以处置速度为代价。此外,灵活量化在CPU平台上对推理速度的改良范围为10-20%,强调了模型紧缩在实践运行中的好处,不只仅是尺寸的缩减。

混合方法的探求

对单个模型紧缩技术的调查标明,一种混合方法,结合量化和常识蒸馏的长处,值得进一步钻研。特意是当可以接受细微的准确性降低时,这种组合战略仿佛有望优化模型的紧凑性和处置效率。正如表1和表2所示,驳回复合方法——将DeiT基础模型与灵活量化相结合——清楚提高了推理速度,到达了两倍以上的增长,同时将模型的大小减小到原始尺寸的四分之一。在准确性上有可控的掂量,突显了混合方法在速度、大小和性能之间取得平衡的后劲。

论断

本钻研努力于对模型紧缩技术启动实证调查,旨在增强Vision Transformers(ViTs)的效率和部署可行性。咱们对四种关键的紧缩方法——量化、低秩近似、常识蒸馏和剪枝——启动了粗疏的调查,同时回忆了该畛域的前沿钻研。

经过对CIFAR-10和CIFAR-100数据集启动的比拟剖析,咱们的发现强调了后训练量化和常识蒸馏作为突出战略的有效性。这些方法不只清楚减小了模型大小,还放慢了推理时期,同时坚持了可接受水平的性能降低。对结合量化和常识蒸馏的协同后劲进后退一步探求提醒了优化的有目共睹路径。特意是在CIFAR-10数据集中,这种混合方法清楚放慢了推理速度——超越基准速度两倍以上——同时将模型大小降低到原始占用空间的四分之一。

从这次片面调查中取得的见地提倡了对模型紧缩采取综合多方面的方法。整合不同的紧缩方法关于提高Vision Transformers的操作效率具备严重的后劲,为该畛域未来钻研指明了松软的方向。此外,本文还可以在交通工程、机器学习、动物工程等畛域进一步钻研。

原文链接:​ ​​ ​

您可能还会对下面的文章感兴趣: