尽管由于芯片、封装和机箱问题,GPU 的发布已经多次推迟,但这并不能阻止他们前进的脚步。
就在GB200和B200发布几个月后,又推出了新一代AI GPU——GB300和B300。
更有趣的是,这个看似平常的更新背后其实暗藏玄机。最突出的是模型的推理和训练性能得到了极大的增强。
随着B300的推出,整个供应链正在经历重组和转型。胜者会从中受益(得到礼物),而败者则处境不利(得到煤炭)。
这是 送给所有超大规模云提供商、精选供应链合作伙伴、内存供应商和投资者的特殊“圣诞礼物”。
然而就在上周,天风国际分析师郭明池在研究报告中透露,B300/GB300 DrMOS存在严重过热问题!
而这很可能会影响B300/GB300的量产进度。
具体分析如下——
这并不是第一次暴露设计问题。
B300 和 GB300:不仅仅是小幅升级
据最新消息,B300 GPU对计算芯片进行了优化设计,并采用台积电全新4NP工艺节点进行流片。
与B200相比,其性能提升主要有以下两个方面:
1、算力
2. 内存
专门针对“推理模型”进行优化
序列长度的增加导致 KV Cache 也扩展,从而限制关键批量大小和延迟。
因此,显存的改进对于o3等大型模型的训练和推理至关重要。
下图显示了 H100 和 H200 在处理 1,000 个输入 token 和 19,000 个输出 token 时的性能提升,这与 o1 和 o3 模型中的思想链(CoT)模式类似。
通过Llama 405B模型完成H100和H200的仿真,精度为FP8
H100到H200的升级主要在于更大更快的显存:
更高的带宽通常可将交互性能提高 43%(H200 为 4.8TB/s,而 H100 为 3.35TB/s)
较大的批处理规模使每秒生成的令牌数量增加了 3 倍,从而使成本降低了约 3 倍。
对于运营商来说,H100和H200的性能和经济差异远远超出了简单的技术参数数字。
首先,之前的推理模型经常会因为请求响应时间过长而影响体验。现在推理速度更快,用户的使用意愿和付费倾向将会显着提升。
其次,成本降低3倍的效益极为可观。硬件仅通过中期显存升级就可以实现3倍的性能提升,这一突破远远超过了摩尔定律、黄氏定律或任何已知的硬件进步速度。
最后,具有最高性能和显着差异化优势的车型可以获得更高的保费。
SOTA模型的毛利率已经超过70%,而面临开源竞争的二级模型的利润率只有不到20%。推理模型可以突破单一思维链的限制,通过扩展搜索功能(如o1 Pro和o3)来提高性能,让模型更智能地解决问题并增加GPU收益。
当然,并不是唯一一家能够提供大容量显存的厂商。
ASIC和AMD都具备这样的能力。而AMD凭借其更大的显存容量(:192GB、:256GB、:288GB)占据主导地位。
不过,老黄手里还有一张“绝对王牌”——。
NVL72在推理领域的核心优势在于它允许72个GPU协同工作并以超低延迟共享显存。
这也是全球唯一具备全连接切换(all-to-all)和全协议计算(all)能力的加速器系统。
的GB200 NVL72和GB300 NVL72对于实现以下关键能力极其重要——
更高的交互性和更低的思维链延迟
72颗GPU分散KV Cache,支持更长的思维链,提升智能水平
与传统8 GPU服务器相比,具有更好的批处理扩展能力。
支持更多样本的并行搜索,以提高准确性和模型性能
总体而言,NVL72可以实现10倍以上的经济效益提升,尤其是在长推理链场景下。
而且,NVL72是目前唯一能够在高批处理下将推理长度扩展到100,000个以上token的解决方案。
供应链重组
在之前的GB200时期,提供了完整的主板(包括GPU、Grace CPU、512GB内存和集成在同一PCB上的电压调节模块VRM),以及交换机托盘和铜背板。
但随着GB300的推出,供应链结构和产品内容将发生重大调整。
在新的解决方案GB300中,仅提供三个核心组件的供应:
最终客户将需要直接购买计算板上的其他组件。同时,二级内存方案由焊接式改为可更换模块,主要由美光供应。交换机托盘和铜背板仍然由 全权负责。
与之前只有纬创资通和富士康工业互联网(FII)可以制造计算板的情况相比,SXM Puck解决方案打破了原有的市场格局。
它的采用为更多 OEM 和 ODM 制造商参与计算托盘制造创造了机会:
其次是VRM供应链。
虽然 SXM Puck 上保留了一些 VRM 组件,但主要的板载 VRM 将由超大规模数据中心运营商和 OEM 直接从供应商处采购:
第三,在互联网技术方面也取得了突破。
GB300平台配备800G-8网络接口卡,可提供双倍的以太网扩展带宽。
与上一代-7相比,-8具有几大显着优势:
对超级计算中心的影响
2024年第三季度,受GB200和GB300延迟发布的影响,大量订单转向英伟达价格更高的新一代GPU。
截至上周,所有超级计算中心已决定采用GB300解决方案。这一决定基于两个因素:
此前,超算中心因上市时间压力以及机架、散热、供电密度等方面的较大调整,很难深度定制GB200服务器。
这迫使Meta完全放弃了从和购买网卡的计划,转而完全依赖。同样,谷歌也放弃了自研的网卡解决方案,转而采用的解决方案。
这给超级计算中心数千名一向善于优化从处理器到网络设备,甚至到螺丝、钣金等各个环节成本的研发团队带来了极大的困扰。
此外,亚马逊的案例最具代表性。他们选择了次优配置,导致总拥有成本 (TCO) 超过参考设计。
无法像 Meta、、、、xAI 和 那样部署 NVL72 机架,因为使用 PCIe 交换机和需要空气冷却的低效 200G 弹性网络适配器。
受限于其内部网卡解决方案,亚马逊被迫采用NVL36架构,但较高的背板和交换机成本推高了每块GPU的支出。
总体而言,由于可定制性有限,亚马逊的配置解决方案并不理想。
GB300的推出为超级计算机提供了更大的自主权,比如定制主板、冷却系统等的能力。
这使得亚马逊能够开发自己的定制主板,将水冷融入到以前需要风冷的组件中,例如 Labs PCIe 交换机。
随着更多组件采用水冷设计,且K2V6 400G网卡将于2025年第三季度实现大规模量产,亚马逊有望回归NVL72架构,大幅提升TCO效率。
然而,这也带来了重大挑战:超级计算中心需要在设计、验证和验证工作上投入更多资源。
这无疑是超算中心(除谷歌TPU外)面临的最复杂的系统设计项目。一些超级计算中心可以快速完成设计,但设计团队较慢的机构则明显落后。
尽管市场有传言称企业已取消订单,但据观察,由于设计进度缓慢,微软可能是最后部署GB300的组织之一,他们仍在第四季度采购GB200。
由于一些组件从 转移到原始设计制造商 (ODM),客户的总采购成本似乎存在显着差异。
这不仅影响了ODM的营收,更重要的是导致英伟达全年毛利率出现波动。这些变化对英伟达利润的影响将在下面进行更详细的分析。
值得一提的是,三星至少在未来九个月内无法进入GB200或GB300供应链。
对英伟达利润的影响
身怀“圣诞精神”的英伟达也令人感兴趣的是其新的定价策略——这将直接影响该系列的利润。
随着显存方案从SK海力士、美光的8层HBM3E堆栈升级到12层HBM3E堆栈,显存容量得到了显着提升。
此次升级直接导致芯片级物料清单(BOM)成本增加约2500美元。
成本的增加主要来自——
第三点也反映了高带宽内存(HBM)在物料清单成本中的主导地位(随着推理模型对内存容量和带宽需求的增加,这一趋势将继续加强)。
总体来看,GB300的平均售价比GB200高出约4000美元,其中HBM成本增加约2500美元,而增量利润率不足40%,而GB200的整体利润率仍维持在低到中70%的水平。
但由于上述变化,减少了整体供应内容,转至超级计算中心自行采购。结果,实现了成本平衡。
首先, 不再为每个 Grace CPU 提供 512GB 内存,这抵消了大部分额外的 HBM 成本。
其次,PCB的成本节省最为显着。
GB300相比GB200的增量毛利率达到73%,这意味着该产品的利润水平基本持平,而良品率保持稳定。
虽然这个结果看起来很平常,但值得注意的是,HBM升级周期通常会导致利润率下降(例如H200的情况),而这次打破了这一惯例。
另外,随着各种工程技术问题的逐步解决,良品率也会提高。经过最初的产能提升期后,预计年内利润率将逐步改善。
参考:
#--with-gb300
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论