存算一体技术:打破摩尔定律,开启算力第二增长曲线

进不了网站?换个网络试试!

人工智能的爆发式增长带来海量算力需求,后摩尔时代,先进芯片工艺不断逼近物理极限,存储计算一体化有望成为未来重要技术路线之一。

存算一体化是指将数据存储和计算集成在同一块芯片的同一区域,存算一体化芯片的性能和成本优势体现在哪些方面?大规模商用目前面临哪些挑战?存算一体化会不会成为国产芯片产业弯道超车的可能?

近日,第一财经与亿筑科技创始人、董事长兼CEO熊大鹏就上述话题进行了探讨。在他看来,存算一体技术在未来计算领域具有革命性的潜力,将打破摩尔定律,开辟算力的第二次增长曲线。“特别是在AI时代,这项技术或将成为驱动算力增长的关键因素。”

打破冯·诺依曼架构,消除三大难题

在传统的冯·诺依曼架构中,计算和存储功能分别由计算单元(CPU、GPU等XPU)和存储单元完成。数据从内存中获取,处理完之后再返回到内存。读取和存储数据所需的时间往往是计算时间的几倍,导致计算效率或者有效算力的下降。

“在大模型盛行的今天,为了完成计算,必须搬移模型参数,而参数数量庞大,占比很高,有时甚至超过80%,有些情况下这个比例甚至更高。因此,数据带宽限制了芯片的实际有效性能,一块芯片可能纸面上是个P,但实际性能可能远低于这个数字,这就是所谓的‘存储墙’。”熊大鹏对第一财经记者说。

伴随“存储墙问题”而来的还有,大量的能量被消耗在传输过程中,导致芯片的能效大幅降低,这就是“能量墙”问题。

此外,还有“编译墙”问题——即动态数据流调度复杂,编译器无法以静态可预测的方式自动优化算子和可执行程序,实现数据流优化,需要依靠人工调优才能实现。更高的有效算力增加了实际部署和迁移的时间和人力成本。“这三点极大地制约了资源日益匮乏、功耗大幅上升的AI产业发展”,熊大鹏说。

存算一体化技术打破了冯·诺依曼架构,在同一芯片上集成存储和计算功能,直接利用存储单元进行数据处理,通过修改“读”电路的内存计算架构,可以在“读”电路中获取计算结果并将结果直接“写”回内存的目的地址,省去了计算单元和存储单元之间频繁的数据传输,消除了数据移动带来的功耗,大大降低了功耗,大大提高了计算效率。

“存储算一体技术有望成为后摩尔时代重要的技术路线之一。从有效算力第一性原理来看,对于存储算一体技术而言,传输的数据量大大降低,有效算力呈现线性增长,可以说存储算一体将打破摩尔定律,开启算力的第二增长曲线。同时我们认为存储算一体技术有潜力彻底改变未来的计算领域,特别是在AI时代,这项技术或将成为推动算力增长的关键因素。”熊大鹏说。

存算一体技术:打破摩尔定律,开启算力第二增长曲线插图

更节能、更经济的解决方案

相比近来兴起的高带宽内存芯片HBM,集成存储和计算架构芯片的系统能效比和性价比更佳。

HBM 是一种高性能内存接口技术,主要用于提高 GPU 和高性能计算 (HPC) 系统的数据处理能力。该技术将 DRAM 芯片垂直堆叠,并使用高速互连将其紧密连接到处理器。这显著增加了带宽。

“HBM是解决‘存储墙’问题的有效技术路线,但它是以成本和功耗为代价的,因为提供大带宽需要更高的功耗,价格也非常昂贵,远远超过传统DRAM的价格。”熊大鹏说,“本质上HBM就是一个存储芯片,不具备计算功能,需要搭配GPGPU等计算芯片才能实现计算功能。”

从系统成本来看,存储和计算一体化芯片可能比传统GPGPU与HBM的组合更加便宜。

一方面,存算一体架构的算力密度或者PPA更高,“存算一体架构的等效数据带宽远大于HBM,可能是几倍甚至十几倍,同时它的算力密度更有优势,实际有效算力、性价比、能效比都远高于GPGPU+HBM方案。”熊大鹏说。

另一方面,存算一体技术对先进工艺依赖程度相对较低,而GPGPU、HBM对先进工艺依赖程度较高,“HBM依赖先进工艺,供应链风险很大,而存算一体技术路线不用先进工艺,比如12nm、22nm,做出来的产品性能可能不逊于4nm甚至3nm,这也是另一条车道超车的概念。”

从性价比上看,虽然存储与计算一体化可能需要更多芯片才能达到同样的性能,但高性价比、高能效比是其显著优势之一。

未来2-3年可能在大模型领域大规模落地

全球范围内存储计算一体化技术的研究和应用正在加速。

存算一体技术:打破摩尔定律,开启算力第二增长曲线插图1

目前,海外采用存算一体路线打造大型计算芯片的公司包括AI芯片初创公司Groq,其估值超过28亿美元,被认为是的强劲竞争对手;背后有微软、淡马锡、三星、海力士、爱立信等多家公司投资。

此外,三星也在IEEE频谱分配大会上发表了基于MRAM的内存计算研究,并展示了其AI算法的高准确率;SK海力士则推出了基于GDDR接口的DRAM的内存计算产品,可大幅提高计算速度并降低功耗。

“据我了解,海外公司大多采用SRAM实现存储与计算一体化,但其容量低、成本高,例如Groq的完整解决方案需要570多颗芯片,如果采用 H100,芯片数量只有个位数,这主要是因为存储密度不足。”熊大鹏表示,国内不少新兴企业在存储和计算技术上取得突破,为我国芯片产业弯道超车提供了可能。

然而,当集成存储和计算芯片的算力大规模扩展时,还面临不少挑战:第一,精度不可靠;第二,基于模拟计算,数模转换带来能耗、芯片尺寸和性能的瓶颈;第三,大型AI模型有容量要求。

“全数字化路径可以很好地解决这些问题,这也是翼筑科技做AI高算力推理芯片的基础。”熊大鹏说。

在一般的模拟存储与计算系统中,数据是以模拟信号的形式存储的,通过存储单元中不同的电压电平来表示,并基于欧姆定律和基尔霍夫定律进行MAC等运算。这种方案最大的问题是缺乏准确性和可靠性,这是由模拟电路噪声和各种变量引起的。无论是制造工艺还是工作环境,忆阻器所表示的数值都会有误差或漂移。虽然力求在效率和准确性之间取得平衡,但仍然无法保证较高的准确性和准确性可靠性。

熊大鹏介绍,翼筑科技的解决方案是基于忆阻器(ReRAM)的全数字化存储与计算一体化,因为是全数字化,数据以二进制形式存储在存储单元中,而一个忆阻器只代表一个bit,也就是说,只有高低电平、高低电阻、高低电流的区别,这种情况下是可以做到可靠的。

此外,存储计算一体化的发展还面临工程化实施的问题。“作为一条新的技术路线,如何使用、融入现有的生态是一个很大的挑战,可编程性、与现有生态的兼容性至关重要。”熊大鹏对第一财经记者表示。

总体来看,存算一体化技术被全球视为解决高算力需求与高能耗成本矛盾的有效手段,也为我国芯片产业的追赶提供了重要机遇。随着技术的不断成熟和市场需求的提升,存算一体化芯片有望在诸多领域得到广泛应用,推动整个产业的创新发展。目前,存算一体化芯片在大机型领域的应用尚处于发展阶段,熊大鹏预计,未来2-3年将实现规模化落地。

(本文来自第一财经)

本站候鸟号已成立2年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论