大型模型变得越来越大、越来越智能,但它们也变得越来越怪异。
两年前,一些研究人员发现了一些奇怪的事情:在大型模型中,有少量特别重要的特征(称为“超权重”)。虽然它们的数量不多,但对模型的性能非常重要。
如果去掉这些“超级权重”,模型就会彻底崩溃,开始胡言乱语,文本也不会生成。但如果删除其他一些不太重要的特征,模型的性能只会受到轻微影响。
有趣的是,不同大模型的“超级权重”惊人的相似,比如:
它们总是分层出现。
它们放大了输入令牌激活的异常值,研究人员将这种现象称为“超级激活”。无论输入什么提示词,“过度激活”在整个模型中都以完全相同的幅度和位置持续存在。而这源于神经网络中的“跨层连接”。
它们还可以减少模型对常用但不重要的单词的注意力,例如“this”、“this”和“le”。
考虑到这些发现,圣母大学和苹果公司的研究团队进一步探索了“超级加权”。
他们改进了舍入(RNQ)技术,提出了一种对算力特别友好的方法。
这种新方法在处理模型的权重时同样有效。该技术可用于处理较大的数据块,使模型变得更小,同时仍保持良好的结果。
看来苹果真的是下注小机型了!
什么是“超重”?
为了量化“权重过大”对模型的影响,研究团队对所有离群权重进行了剪枝,发现去除一个“权重过大”的影响比去除其他7000个离群权重的总和还要严重。 。
如何识别“超重”?
尽管之前的研究人员发现“超重量级”可以激活异常庞大的神经网络。该团队将“超重”和“超激活”之间的联系更进一步。他们发现,在降维投影之前,门控和上投影的乘积产生了相对较大的激活,而“超加权”进一步放大了这种激活,产生了“超激活”。
通过激活峰可以进一步定位“超权重”。基于此,研究团队提出了一种有效的方法:通过检测层间降维投影的输入和输出分布中的峰值来定位“超级权重”。
这种方法只需要输入提示词,非常简单方便,不再需要一组验证数据或具体例子。
在这种情况下,j和k由X_ik和Y_ij的值确定。因此,可以首先绘制 mlp.down proj 层的输入和输出激活中的极端异常值。接下来,如图3所示,确定超级权重所在的图层和坐标。
一旦检测到超重,就将其从模型中删除,并重复上述过程,直到较大的最大激活值被抑制。
“超重”机制
研究团队发现,超权重主要有两个作用:
触发“过度激活”;抑制停用词的生成概率()。
为了探究“超级权重”是否完全通过“超级激活”或者也通过其他代币影响模型质量,研究团队设计了一个控制变量实验:
实验结果如表1所示,恢复“超级激活”后,模型平均准确率从35.14恢复到49.94。恢复“超级激活”大约恢复了42%的质量损失。
这说明“超权重”对模型整体质量的影响并不完全是“超激活”造成的。
“超级权重”会影响输出token的概率分布。为此,团队研究了“超级权重”对测试集中500个输出token的概率分布的影响。
实验表明,去除“超权重”后,停用词的生成概率显着增加。例如,对于 Llama-7B 模型,“the”的生成概率增加了大约 2 倍,“.”增加约5倍,“,”增加约10倍
为了更深入的分析,研究团队进行了案例研究:
具有“超级权重”的原始模型能够以 81.4% 的高概率进行正确预测。然而,去除“超重”后,模型预测最多的词变成了停用词“the”,“the”的概率仅为9.0%。大多数情况下,这是无稽之谈。
这表明“超权重”对于模型正确且自信地预测语义上有意义的单词至关重要。
研究团队还通过将超级权重放大0.0到3.0的比例因子,分析了超级权重幅度的变化对模型质量的影响。结果表明,适度增大幅度可以提高模型精度,如下图所示。
超级异常值感知量化
量化是一种用于压缩模型和减少内存需求的强大技术。然而,无论是权重量化还是激活量化,异常值的存在都会大大降低量化质量。如前所述,研究人员将这些有问题的异常值(包括超权重和超激活值)称为超级异常值。
如上所示,这些异常值对于模型质量非常重要,因此在量化过程中保留它们至关重要。
量化一般将连续值映射到有限的值集;这里考虑的是最简单的形式之一,非对称舍入到最近的量化:
我们特别考虑了硬件以半精度执行运算的情况,这意味着张量知识。
首先,保留超级离群值,防止对离群值量化产生不利影响。其次,去量化后恢复超级异常值,以确保保留超级异常值的效果。
接下来,这种观点将以两种形式应用于权重和激活。
激活量化
研究人员利用值舍入量化技术进行了实验,并做了一个小修改:用中值替换超激活()、量化(Q)和反量化(Q-1)激活,然后恢复 FP16 中的超激活()。具体操作如下:
由于超激活是单个标量,因此它对比特率和内核复杂性影响很小。
体重量化
小分组会产生计算和比特率开销,需要其他技术来处理大量的半精度标度和偏差。为了应对这一挑战,本文提出了一种简单的方法来改进 INT4 的批量量化。首先,确定超权重;其次,为了改善离群值拟合,对离群值权重进行剪裁(CLIP)。本步骤中,还对超权重进行了裁剪,并对裁剪后的权重进行量化(Q)和反量化(Q-1);然后,为了确保保留超权重的效果,在反量化后恢复半精度超权重(Q-1)。
如上式所示,z 分数用于参数化剪切。假设所有权重服从高斯分布,研究人员将所有 z 值超过某个阈值 z 的值视为异常值。为了调整超参数 z,研究人员使用 -2 训练集中的 500 个示例找到了最小重建误差 z 分数。
实验
为了充分展示超加权的效果,研究人员在LLaMA 7B-30B、7B和OLMo上进行了实验。为了评估LLM的实际应用能力,他们在PIQA、ARC、和.等零样本基准上评估了这些模型的准确性。详细信息如下所示。
激活量化
表3对本文的方法进行了比较。对于两个数据集上的三个 Llama 模型,该方法比朴素量化方法提高了 70%。在使用的C4数据集和Llama-30B数据集上,本文提高了80%以上。这意味着与更复杂的方法相比,显着简化的定量方法可以获得有竞争力的结果。
随后,研究人员扩大了评估范围,纳入了更多的LLM:OLMo(1B和7B)、-7B和Llama-2-7B。结果如表 4 和附录表 7 所示。这些模型代表了不同的架构和训练范例,可以评估量化方法的普遍性。由于这组模型没有被报道,研究人员将他们的结果与简单的 W8A8 量化进行了比较。在所有模型和数据集上,该方法始终优于朴素的 W8A8 量化,并且其性能在 OLMo 模型上尤其突出。
值得注意的是,OLMo 模型使用非参数,因此与依赖权重对每个通道应用比例的方法不兼容。在运-7B上,改进就更小了。我们假设这是因为这些模型的学习权重可能会主动抑制过度激活,从而使激活幅度的分布更加均匀。
这些结果强调了过度激活在量化过程中维持模型性能的重要性。通过以最小的计算开销解决这个单一激活问题,我们的方法获得了更复杂的量化方案所实现的大部分优势。这一发现表明,过度激活在量化过程中维持模型质量方面发挥着不成比例的重要作用。
体重量化
为了评估所提出的超权重感知量化方法的有效性,研究人员将其与传统的舍入到近量化方法进行了比较,并在一组零样本下游任务上评估了该模型。结果如图7所示。
在传统的舍入到接近量化方法中,可以观察到一个明显的趋势:随着块大小的增加,模型质量显着下降。这种下降可能是由于当较大的权重块一起量化时量化误差增加,从而允许异常值影响更多的权重。相比之下,我们的“超加权”感知量化方法对于较大的块大小更加稳健。随着块大小的增加,模型质量的下降明显小于舍入到接近方法。
这种稳健性源于我们的方法能够保留最关键的权重(超权重),同时最大限度地减少异常权重对整个量化过程的影响。通过修剪异常值并关注异常值权重,我们的方法在表示模型参数时保持更高的保真度。
另一个关键优势是它能够支持更大的数据块大小,同时模型质量损失更少。此功能会导致较低的平均比特率和较小的文件大小,这对于在资源受限的环境(例如移动设备或边缘计算场景)中部署模型至关重要。
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论