清华最新研究打破思维定式,革新 MoE 架构,探索更高效模型架构

进不了网站?换个网络试试!

MoE架构的主要优点是利用稀疏激活的性质将大型模型分解为多个功能模块。每次计算只激活其中的一小部分,而其余模块则保持不使用,从而大大降低了模型的计算和学习成本。 ,在相同的计算量下可以产生性能优势。

然而,之前利用稀疏激活特性的研究工作,例如MoE,认为大型模型需要在预训练阶段引入额外的模块化结构约束。

如今,清华大学的一项最新研究打破了上述思维定势,对教育部架构进行了创新。

具体来说,研究人员受到人脑高效稀疏模块化架构的启发,在论文《:LLMs from a》中提出了一种类脑高效稀疏模块化架构:模型。

该架构将大模型的模块拆分为预训练阶段生成的紧急模块()和训练后阶段生成的定制模块()。然后通过模块的检索、组合、更新和增长,可以高效地实现复杂的功能配置。和组合,因此,这种模块化模型架构被命名为“模型”——可配置的基本模型。从此以后,训练大型模型不需要像MoE架构那样在预训练阶段引入模块化结构约束。相反,在预训练阶段生成紧急模块后,可以像搭积木一样构建大型模型!

如下图所示,一个大的模型被视为一个大的构建块。按照功能将其拆分成小模块后,当给出指令时,我们只需要选择一些相关的模块,形成一个子模型即可完成任务。

清华最新研究打破思维定式,革新 MoE 架构,探索更高效模型架构插图

这项研究揭示了“模块化”是大型模型本身的固有属性。所有基于的大模型的预训练和后训练都可以从模块化的角度进行解构,其中MoE和Delta只是模型中包含的一种类型。路线。

Model架构高效、可复用、可追溯、可扩展,更适合分布式计算。能够更好的适应未来设备侧大型模型的部署、广泛场景、新环境的使用。未来的进化趋势。

清华最新研究打破思维定式,革新 MoE 架构,探索更高效模型架构插图1

论文链接:

论文单位:清华大学、加州大学圣地亚哥分校、卡内基梅隆大学、Wall- 、中国人民大学、普林斯顿大学、新加坡国立大学、斯坦福大学、加州大学洛杉矶分校。

可配置的大型模型 - 紧急和定制模块

研究人员描述了两种模块类型:紧急模块和定制模块,以及它们的构建方式。

1. 应急模块

通过随机初始化的模型参数,模型神经元在预训练过程中会自发地进行功能分化,从而形成大模型的功能分区。在推理阶段,只有与当前输入内容相关的功能分区才会被激活,并作用于模型的输出结果。

清华最新研究打破思维定式,革新 MoE 架构,探索更高效模型架构插图2

在这种机制下,许多研究致力于探索大模型神经元的稀疏激活特性和功能定位:

稀疏激活:

最早利用稀疏激活特性的模型架构是稀疏混合专家模型,它使用预定义的模块化结构强制每个单词仅使用一些专家进行计算。

此外,在密集训练的模型中,神经元还存在稀疏激活现象:在处理每个单词的过程中,大量神经元激活值的绝对值很低,无法有效地对输出做出贡献。稀疏激活的本质使我们能够训练高效的参数选择器,并在推理过程中动态选择用于计算的参数,以减少计算开销。

功能定位:

与人脑类似,大模型神经元在预训练后会进行功能分化,每个神经元只负责部分功能。已被广泛发现的功能神经元包括:

知识神经元用于存储世界三重知识;

技能神经元用于辅助模型完成特定任务,例如情绪分类;

语言神经元,用于识别特定的语法特征或处理特定的语言。

这些功能神经元的发现进一步支持了大型模型像人脑一样有效地执行稀疏推理的潜力。

2. 定制模块(插件)

在预训练之后,我们常常需要对模型进行后训练,使模型与人类需求保持一致,增强模型能力,包括领域能力和任务能力。最近的研究表明,训练后过程中的参数变化本质上是低阶的,这意味着该过程仅训练少量参数。受这些发现的启发,提出了各种自定义模块(插件)。

其中,最广为人知的是通过少量参数微调形成的任务模块,保持模型主要参数不变,仅微调少量任务相关参数。此外,许多研究发现,小型外部插件不仅可以赋予大型模型任务特定的能力,还可以为其补充更多额外的知识和功能,例如用于世界知识注入的知识插件、多模型用于模态合成的模态插件、用于长文本处理的内存插件以及用于推理加速的压缩插件。

因此,本文研究人员认为,后训练的本质是定制模块的训练,可以充分补充和激发大模型的知识和能力。

清华最新研究打破思维定式,革新 MoE 架构,探索更高效模型架构插图3

由紧急模块和自定义模块组成的可配置大模型相对于传统密集模型有五个主要优点:

高效:我们仍然可以用数百亿、数千亿的参数来存储海量的世界知识,但在每次计算过程中,只涉及部分参数参与计算,保证了模型的效果,大大减少了计算量开销。

可复用性:针对不同数据和不同任务训练的模块可以通过模块路由器/选择器按相同顺序组合,实现能力的迁移和复用。

可追溯性:模块化架构改变了传统黑匣子大模型的使用方式。在推理阶段,我们可以观察不同功能模块的激活和调用,从而更好地观察模型错误行为的原因。

可扩展性:模块化架构允许我们通过模块的更新和构建来更新模型并增强其能力,而无需训练所有模型参数。这使得模型能够持续高效地学习新知识和能力。

分布式计算:功能模块的拆分让我们在部署模型时很自然地将不同的模块放在不同的机器上进行计算。例如,包含个人隐私数据的模块部署在端侧设备上,而大多数常见模块部署在云服务器上,以实现高效、安全的端云协作。

在定义了可配置的大模型架构后,研究人员提出了四个主要的模块操作,通过这些模块操作,不同的模块可以灵活地协作以实现复杂的能力。

检索路由:根据需要,选择相关功能模块参与计算;

组合:将多个单一能力的模块组合起来,实现复合能力;

更新:根据外界的需求,对具体知识和功能模块进行更改;

成长:构建新的功能模块,增强模型的能力,使其能够与其他模块高效协作。

这些模块化操作让我们更容易高效地配置模型能力。

大型模型的紧急模块分析

此外,为了验证大模型的模块化观点,作者对现在广泛使用的通用生成大模型(Llama-3-8B-,-7B--v0.3)进行了紧急模块分析:

稀疏激活特征:一般的生成大模型是否存在稀疏激活现象,即每个词只需要少量的神经元参与计算;

功能分化特征:是否有特定的神经元负责不同的能力;

功能分区特征:不同能力对应的神经元之间是否存在重叠。

(1)针对稀疏激活特性,作者采用神经元激活值和神经元输出向量的模长度两个指标作为神经元是否激活的评价指标。此外,作者还进行了扰动实验,探讨覆盖每个单词激活指数最低的神经元后,模型性能是否会受到影响。

清华最新研究打破思维定式,革新 MoE 架构,探索更高效模型架构插图4

结果表明,对于神经元激活值和输出向量模块长度两个指标,神经元激活指标具有长尾分布特征,即大多数神经元的激活指标较低。同时,通过覆盖每个单词激活指数最低的70%-80%的神经元,模型性能只会受到非常微弱的影响。这充分说明了一般生成大模型具有稀疏激活特性。每次计算过程中,大量神经元的计算不会对输出产生太大影响。

(2)针对功能分化特征:作者选取了代码、道德、知识、语言、数学、翻译和写作能力等7个大模型能力,计算了神经元激活与输入指令所需能力之间的相关性。下图的结果表明,每种能力都有极少数与其高度相关的神经元。在需要改变能力的指令中,大多数与能力无关的神经元的激活特性与随机激活的神经元类似。

清华最新研究打破思维定式,革新 MoE 架构,探索更高效模型架构插图5

此外,作者尝试修剪每种能力特有的神经元,并观察这些神经元对其他能力的影响。

下面的结果表明,对于大多数能力来说,剪掉与它们最相关的神经元对其他能力几乎没有影响,表明了这些神经元的特异性。

例如,对于 Llama-3-8B-,剪枝代码神经元后,性能下降(PPL 增加)112%,而对其他能力的性能影响不超过 8%。

此外,Llama-3-8B- 中的知识相关神经元和-7B--v0.3 中的翻译相关神经元对于每种能力都至关重要。这可能是常驻神经元的影响,识别具有特定能力的神经元。元氏算法识别常驻神经元,影响模型的通用能力。这进一步需要研究人员进行更多后续研究来探索神经元的能力。

清华最新研究打破思维定式,革新 MoE 架构,探索更高效模型架构插图6

(3)功能分区特征:作者对不同能力的神经元进行了分布分析,发现不同能力的神经元之间的重叠程度很低。这表明我们可以进一步对神经元进行聚类以形成功能分区。

清华最新研究打破思维定式,革新 MoE 架构,探索更高效模型架构插图7

大模型自定义模块(插件)分析

模型由训练前阶段的紧急模块和训练后阶段的定制模块组成。前面已经分析过大模型的涌现模块的相关性质。同样,作者团队在插件构建层面也做了很多有益的尝试:

知识插件:为了实现高效的长期知识更新,我们提出了一种针对大型模型的即插即用的参数化知识插件:将非结构化文本知识参数化为大型模型的模块,并在模型运行时插入模块需要相关知识。将知识注入到模型中。该方法可以有效地将知识注入模型,减少知识驱动任务中的文本编码开销,节省69%的计算成本。

本站候鸟号已成立2年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论