超权重对大模型的影响竟如此之大，去掉它模型竟会摆烂

立即下单

进入商城

进不了网站？换个网络试试！

大型模型变得越来越大、越来越智能，但它们也变得越来越怪异。

两年前，一些研究人员发现了一些奇怪的事情：在大型模型中，有少量特别重要的特征（称为“超权重”）。虽然它们的数量不多，但对模型的性能非常重要。

如果去掉这些“超级权重”，模型就会彻底崩溃，开始胡言乱语，文本也不会生成。但如果删除其他一些不太重要的特征，模型的性能只会受到轻微影响。

有趣的是，不同大模型的“超级权重”惊人的相似，比如：

它们总是分层出现。

它们放大了输入令牌激活的异常值，研究人员将这种现象称为“超级激活”。无论输入什么提示词，“过度激活”在整个模型中都以完全相同的幅度和位置持续存在。而这源于神经网络中的“跨层连接”。

它们还可以减少模型对常用但不重要的单词的注意力，例如“this”、“this”和“le”。

考虑到这些发现，圣母大学和苹果公司的研究团队进一步探索了“超级加权”。

他们改进了舍入（RNQ）技术，提出了一种对算力特别友好的方法。

这种新方法在处理模型的权重时同样有效。该技术可用于处理较大的数据块，使模型变得更小，同时仍保持良好的结果。

看来苹果真的是下注小机型了！

什么是“超重”？

为了量化“权重过大”对模型的影响，研究团队对所有离群权重进行了剪枝，发现去除一个“权重过大”的影响比去除其他7000个离群权重的总和还要严重。。

如何识别“超重”？

尽管之前的研究人员发现“超重量级”可以激活异常庞大的神经网络。该团队将“超重”和“超激活”之间的联系更进一步。他们发现，在降维投影之前，门控和上投影的乘积产生了相对较大的激活，而“超加权”进一步放大了这种激活，产生了“超激活”。

通过激活峰可以进一步定位“超权重”。基于此，研究团队提出了一种有效的方法：通过检测层间降维投影的输入和输出分布中的峰值来定位“超级权重”。

这种方法只需要输入提示词，非常简单方便，不再需要一组验证数据或具体例子。

在这种情况下，j和k由X_ik和Y_ij的值确定。因此，可以首先绘制 mlp.down proj 层的输入和输出激活中的极端异常值。接下来，如图3所示，确定超级权重所在的图层和坐标。

一旦检测到超重，就将其从模型中删除，并重复上述过程，直到较大的最大激活值被抑制。

“超重”机制

研究团队发现，超权重主要有两个作用：

触发“过度激活”；抑制停用词的生成概率()。

为了探究“超级权重”是否完全通过“超级激活”或者也通过其他代币影响模型质量，研究团队设计了一个控制变量实验：

实验结果如表1所示，恢复“超级激活”后，模型平均准确率从35.14恢复到49.94。恢复“超级激活”大约恢复了42%的质量损失。

这说明“超权重”对模型整体质量的影响并不完全是“超激活”造成的。

“超级权重”会影响输出token的概率分布。为此，团队研究了“超级权重”对测试集中500个输出token的概率分布的影响。

实验表明，去除“超权重”后，停用词的生成概率显着增加。例如，对于 Llama-7B 模型，“the”的生成概率增加了大约 2 倍，“.”增加约5倍，“,”增加约10倍

为了更深入的分析，研究团队进行了案例研究：

具有“超级权重”的原始模型能够以 81.4% 的高概率进行正确预测。然而，去除“超重”后，模型预测最多的词变成了停用词“the”，“the”的概率仅为9.0%。大多数情况下，这是无稽之谈。

这表明“超权重”对于模型正确且自信地预测语义上有意义的单词至关重要。

研究团队还通过将超级权重放大0.0到3.0的比例因子，分析了超级权重幅度的变化对模型质量的影响。结果表明，适度增大幅度可以提高模型精度，如下图所示。

超级异常值感知量化

量化是一种用于压缩模型和减少内存需求的强大技术。然而，无论是权重量化还是激活量化，异常值的存在都会大大降低量化质量。如前所述，研究人员将这些有问题的异常值（包括超权重和超激活值）称为超级异常值。

如上所示，这些异常值对于模型质量非常重要，因此在量化过程中保留它们至关重要。

量化一般将连续值映射到有限的值集；这里考虑的是最简单的形式之一，非对称舍入到最近的量化：

我们特别考虑了硬件以半精度执行运算的情况，这意味着张量知识。

首先，保留超级离群值，防止对离群值量化产生不利影响。其次，去量化后恢复超级异常值，以确保保留超级异常值的效果。

接下来，这种观点将以两种形式应用于权重和激活。

激活量化

研究人员利用值舍入量化技术进行了实验，并做了一个小修改：用中值替换超激活（）、量化（Q）和反量化（Q-1）激活，然后恢复 FP16 中的超激活（）。具体操作如下：

由于超激活是单个标量，因此它对比特率和内核复杂性影响很小。

体重量化

小分组会产生计算和比特率开销，需要其他技术来处理大量的半精度标度和偏差。为了应对这一挑战，本文提出了一种简单的方法来改进 INT4 的批量量化。首先，确定超权重；其次，为了改善离群值拟合，对离群值权重进行剪裁（CLIP）。本步骤中，还对超权重进行了裁剪，并对裁剪后的权重进行量化（Q）和反量化（Q-1）；然后，为了确保保留超权重的效果，在反量化后恢复半精度超权重（Q-1）。

如上式所示，z 分数用于参数化剪切。假设所有权重服从高斯分布，研究人员将所有 z 值超过某个阈值 z 的值视为异常值。为了调整超参数 z，研究人员使用 -2 训练集中的 500 个示例找到了最小重建误差 z 分数。

实验

为了充分展示超加权的效果，研究人员在LLaMA 7B-30B、7B和OLMo上进行了实验。为了评估LLM的实际应用能力，他们在PIQA、ARC、和.等零样本基准上评估了这些模型的准确性。详细信息如下所示。

激活量化

表3对本文的方法进行了比较。对于两个数据集上的三个 Llama 模型，该方法比朴素量化方法提高了 70%。在使用的C4数据集和Llama-30B数据集上，本文提高了80%以上。这意味着与更复杂的方法相比，显着简化的定量方法可以获得有竞争力的结果。

随后，研究人员扩大了评估范围，纳入了更多的LLM：OLMo（1B和7B）、-7B和Llama-2-7B。结果如表 4 和附录表 7 所示。这些模型代表了不同的架构和训练范例，可以评估量化方法的普遍性。由于这组模型没有被报道，研究人员将他们的结果与简单的 W8A8 量化进行了比较。在所有模型和数据集上，该方法始终优于朴素的 W8A8 量化，并且其性能在 OLMo 模型上尤其突出。