大语言模型能力边界不断打破,推理难题待解,华为团队出招

进不了网站?换个网络试试!

大语言模型能力边界不断打破,推理难题待解,华为团队出招插图

如今,参数规模呈指数级膨胀,大语言模型(LLM)的潜能不断被拓展,AI的智慧正迅速提升。然而,与此同时,这些大模型在应用推广过程中遭遇了诸多推理难题,诸如难以推进、计算负担重、部署速度慢等问题,这些因素使得推理成本激增,性能上的浪费现象尤为严重。

因此,在大模型推理领域,速度和能效问题成为了算力厂商和算法团队必须面对的关键议题。如何让这些模型既快速运行又节省资源,迫切需要创新性的解决方案。这显然不仅是一个技术难题,还需要在承受大模型推理带来的压力的同时,对能效、延迟和成本等多个方面进行有效控制和优化。

在这一特定条件下,华为团队如同昨日,依旧(参照:助力大模型加速80%,华为展示昇腾推理利器,三步突破通算难题),运用数学来补充物理,呈现了一套软硬件深度结合的全面解决方案!

依托昇腾的计算能力,他们正式推出了三项关键的硬件兼容算子技术的研究成果,实现了对大模型推理速度和能效的双重革新。具体而言,这些成果涵盖:

观察可知,华为团队致力于对大模型推理中的核心运算单元进行重构与优化,从而在能效提升、多卡协同以及速度加快这三个关键维度上实现了全方位的突破。

AI大模型进行计算时,算子充当着类似原子级工具的角色,它们就像乐高积木中的基础单元,承担着从基本运算到特征提取的所有关键操作。这些算子不仅是提升模型效率的核心动力,还极大地增强了硬件的性能——通过统一的设计标准、深度硬件适配以及复用策略,使得芯片在处理大量数据时能力大增。

华为团队此次发布的三大技术,正是算子优化的「终极形态」。

技术全景三大黑科技如何颠覆 AI 计算?

AMLA:以加代乘的「魔法」让芯片算力利用率飙升

大语言模型能力边界不断打破,推理难题待解,华为团队出招插图1

在 MLA 计算阶段,华为团队研发了 AMLA(MLA)算子,此算子通过数学上的等效转换和硬件的深度优化,有效提升了昇腾芯片的强大计算能力。MLA 作为大模型的关键技术创新,主要功能在于减少推理过程中的 KV Cache,使得在更少的设备上即可完成对更长数据的推理,从而显著降低了推理成本。这便是该技术的高效实现版本。

华为团队针对MLA架构,运用了巧妙的数学运算技巧,使得该架构更易于昇腾技术的融合,同时实现了更高的计算能力效率。

具体来说,通过重新解析浮点数的二进制编码,将繁杂的乘法运算转化为简易的加法运算,AMLA成功实现了内存内变量的更新,在此过程中充分运用了算力并降低了数据传输的负担;此外,借助昇腾硬件的一系列计算流程和流水线优化策略,进一步增强了算子的综合性能。

目前,AMLA算法的算子充分利用了昇腾硬件的计算潜能,其性能实现了超过30%的提升,算力利用率平均达到了55%,最高甚至可达71%,这一成绩超过了公开数据的平均水平(67%)。

大语言模型能力边界不断打破,推理难题待解,华为团队出招插图2

博客链接:

融合算子优化:硬件资源的 「交响乐指挥家」

依托于昇腾平台对 V3/R1 大模型的实际应用经验,华为研发团队总结并提炼出了三大昇腾算子融合设计的核心原则:对硬件单元间的并行程度进行优化、消除冗余数据的传输、以及通过数学等价的方式重构计算流程。

首先,借助昇腾芯片多硬件单元并行处理的优势,将不同硬件单元间的串行算子整合成复合算子,并借助指令级流水线技术,有效实现了计算时间的相互覆盖。

再者,对连续的向量运算操作进行整合处理,搭建起全局存储和计算模块缓存之间的直接数据通路,确保中间数据始终存放在高速缓存中。

最终,华为团队通过运用数学上的等价原理来解除算子之间的数据关联,并对计算流程进行了重新编排,以此达到并行处理的目的,从而实现了加速。这一技术体系在模型推演过程中显著提高了性能水平。

大语言模型能力边界不断打破,推理难题待解,华为团队出招插图3

博客链接:

:384 卡内存共享的「超低延迟高速公路」

华为384支持384卡在原生Load/Store语义方面。这一特性因具备低延迟、上下文切换成本低、支持细粒度流水等显著优点,受到了业界的广泛关注。此外,基于共享内存的集合通信技术,能够满足小数据量和大范围集合通信场景的需求,已成为稀疏模型推理不可或缺的关键能力。

针对原生 Load/Store 内存语义通信,我们提供了软硬件加速功能。Push & Pull (-CPP) 技术实现了 Load/Store 操作在读取和写入两个方向上的并行处理,充分利用了昇腾芯片读写分离的微架构优势。同时,为了解决数据保序场景中的同步开销问题,我们引入了批处理和中转机制,有效减少了控制逻辑的负担。在跨机访存通信的特定情境中,此方案能够使昇腾芯片每个线程的存储访问效率提高超过20%,增幅达到384。

大语言模型能力边界不断打破,推理难题待解,华为团队出招插图4

博客链接:

未来与展望

关于前面所提及的三个算子层面优化技术的未来发展趋势,对于AML A,我们将致力于研究针对仅KV Cache量化和全量化场景的MLA算子优化,以此拓宽算子应用的领域;在融合算子优化的方面,我们将深入挖掘融合算子在更多模型架构中的运用潜力,促进大语言模型在昇腾硬件平台上的高效推理及广泛使用;至于Load/Store的优化技术,我们将结合业务需求设计巧妙的流水线实现方式,均衡读写层面的负载分配,并将这一理念应用于特定场景,以期在大型项目中实现实际效益。

面向未来,这三类算子层面的优化技术不仅将在昇腾生态中扮演核心角色,同时亦有望为全行业树立一个具有借鉴意义的典范。在当前大模型架构日益复杂化、推理场景愈发多元化的背景下,算子层的优化正逐步从单一性能提升向“数学创新、架构感知、硬件亲和”三位一体的协同发展新阶段迈进。

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论