由于缺乏对操作逻辑的解释,大型模型一直被称为“黑匣子”。然而,最近的许多研究已经能够在单个神经元水平上解释大型模型的运行机制。
例如,2023 年发表的一项研究将大型模型中的大约 500 个神经元分解为大约 4,000 个可解释的特征。
10 月 28 日的一项研究以算术推理为典型任务,并借鉴类似的研究方法,确定了大模型中能够解释模型大部分基本算术逻辑行为的模型子集。
论文地址:
研究首先在-8B/70B、-6.9B和GPT-J这四个模型中找到了负责算术计算的模型子集。
如图1所示,少量的注意力头对面临算术问题的大型模型的准确性有显着的影响。第一个MLP(多层感知器)明显影响操作数和算子位置,而中后层的MLP将token信息投射到最后一个位置,以增加正确答案的概率。
图 1:被发现与 -8B 中算术相关的模型子集
该研究着眼于单个神经元的水平,发现了一组重要的神经元,它们实现了简单的启发式算法。只有关注极少数特定神经元,我们才能正确预测大型模型执行算术运算的结果(图 2)。
图2:只需要关注大模型每一层中1.5%的神经元来预测大模型的四种算术运算的结果。
例如:当输入提示词为“226−68=”时,神经元24 | 12439在减法提示下显示出很高的激活值,结果在150到180之间,可以看作是启发式算法。每个启发式识别数字输入模式并输出相应的答案。
具体来说,可以分为两种不同的激活模式:第一种直接启发式是指在某些神经元中,激活模式取决于两个操作数,值向量编码算术计算的预期结果(图3b,c) 。
第二种间接激活模式依赖于与各个操作数相对应的神经元,其中值向量通常对下游处理的特征进行编码,而不是直接计算结果(图 3a)。
图 3:启发式方法的可视化
神经元与操作之间的因果关系
如何确认特定神经元与相关数学运算之间存在因果关系?常见的方法是消融分析,即敲除大模型中的特定神经元,看看模型的效果会如何变化。结果如图4所示。
图4:四种算术运算中剔除相应算术神经元后模型的性能对比
去掉相应的神经元后,无论加减乘除,模型的计算精度都大幅下降。
不仅如此,与去除特定算术神经元引起的性能下降相比,可以发现去除随机神经元的影响相对较小,并且这种影响在模型8B和70B的不同参数量中普遍存在。
图 5:与算术相关的启发式剔除神经元(实线)与相同数量的与算术无关的随机神经元(虚线)相比
上述结果表明,对于在特定的一对大型模型上执行算术很重要的神经元可以仅根据其相关的启发式进行识别,并且还证明了属于多个启发式的神经元与提示的正确完成之间的因果关系。
此外,结果支持启发式集成的主张:每种启发式仅略微提高了正确答案的机会,但它们一起使大型模型能够以高概率生成算术问题的正确答案。
为什么大模型不能正确做算术题
-8B 模型无法可靠地给出每个算术问题的正确答案。基于启发式规则,本研究解释了模型出错的原因。有两种可能的机制:
首先,由于参数数量的限制,大型模型缺乏足够的算术神经元,无法响应每种情况。
第二个原因是可能存在不完全回忆,例如某个启发式规则对应的神经元在运行过程中没有被激发。
图 6:随机选择 50 个正确完成和 50 个错误完成的算术问题来检查大型模型中正确和错误激活的算术神经元的数量。
如图6所示,当大模型回答正确和错误时,激活的算术神经元的数量没有差异。这并不支持前面提到的算术神经元数量不足的第一个假设。
然而,在大模型回答正确的情况下,正确的神经元被激活的比例更大,而在回答错误的情况下,应该激活的神经元的激活概率较小。
这意味着大型模型在特定算术问题上失败的主要原因是由于能够产生正确答案的神经元缺乏泛化能力,而不是算术神经元数量不足。
“算术神经元”是什么时候诞生的?
由于其训练检查点是公开的,因此本研究使用 -6.9B 来检查大型模型过程中算术神经元的出现阶段。
结果表明,大型模型在训练过程中逐渐发展出最终的算术启发式,算术神经元在模型训练的早期就出现了。
图 7:启发式算术神经元的百分比随着训练而增加
在模型训练的不同阶段删除特定的启发式神经元会显着降低所有训练检查点的模型准确性,这表明算术准确性主要来自启发式,即使在早期阶段也是如此。算术启发式神经元与大模型算术能力之间的因果关系在整个训练过程中持续存在。
图8:不同阶段剔除算术神经元对大型模型算术运算准确性的影响
综上所述
了解大型模型如何进行数学运算,不仅可以打开大型模型内部运算的黑匣子,还可以解释它们为何在简单的数学问题上颠覆,比如最著名的“9.11和9.8哪个更大?”
这项研究告诉我们,并不是大型模型缺乏相关训练,而是激活了错误的启发式神经元,例如询问哪个版本更大的问题。
了解大型模型的算术运算依赖于启发式方法集,而不是简单地依赖于记忆(记忆问题)或学习规则。这表明,提高大型模型的数学能力可能需要对训练和架构进行根本性的改变,而不是像激活启动这样的小修复。
对训练过程的分析表明,大型模型在训练早期就学习这些启发式方法,并随着时间的推移逐渐加强它们。这可能会导致模型过度拟合早期的简单策略,因此可以作为未来优化方向的参考。
参考:
本文来自微信公众号“新智元”,作者:Peter Yang,36氪经授权发布。
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论