50s成功7B模型量化 大模型低比特量化有新招了 4bit到达新SOTA
消弭激活值(outliers),大言语模型低比特量化有新招了 ——
智能化所、清华、港城大团队最近有一篇论文中选了 NeurIPS 2024 (Oral Presentation),他们针对LLM权重激活量化提出了两种正交变换,有效降低了outliers现象,到达了4-bit的新SOTA。
便捷了解,在大言语模型(LLM)中,有一些两边层输入的数值(激活值 Activation)会变得十分大,它们被称为“outliers(离群值)”,这些 outliers给模型量化带来了应战。
补充一下,量化可以将模型中的数值从浮点数转换为整数,以缩小模型的大小和计算需求。
而一旦在量化环节中存在少量outliers,会造成量化后的模型功能降低。
明确了这层情理, 咱们再来看他们团队的一项名为DuQuant的新钻研。
首先, 他们发如今LLM的前馈网络 (FFN) 模块中的, 存在清楚的 Massive Outliers (十分大的激活值)。
这种outliers不同于以往发现的Normal Outliers,体现为大于相对值几百的意外值并局限于一般的tokens中——
它们造成现有的量化算法(如SmoothQuant和OmniQuant)在将模型的权重和激活值量化为4位二进制数时体现不佳。
对此,团队提出了一种新的量化方法,叫做。
DuQuant经过学习旋转和置换变换矩阵,在Activation矩阵外部将outliers转移到其余通道,最终获取平滑的激活矩阵,从而大幅降低了量化难度。
试验显示,经常使用DuQuant方法,在4位权重和激活量化的设置下, 模型到达了SOTA 。
同时,DuQuant的训练十分极速,可以在 50s内 成功7B模型的量化环节, 即插即用 。
在每个Transformer块的经常出现模块中,多头自留意力(MSA)和前馈网络(FFN)基本上都由 线性层组成 ,将其示意为:
模型量化经过将浮点数(FP16, BF16)示意的模型权重或激活值转换为低位的浮点数或整数来缩小内存占用,权重激活量化可以经过经常使用低比特乘法的算子进一步放慢模型推理的速度。
该上班重点关注 低比特整型量化 ,指标是取得更好的配件允许。
详细来说,