[文本/观察者网络专栏作家Pan ]
“即使我们的竞争对手获得了免费产品,我们仍然比他们便宜。”
首席执行官詹森·黄( Huang)在2024年3月的SIEPR经济峰会上的主题演讲中回答了斯坦福大学名誉经济学教授约翰的问题。
当时,这一说法引起了半导体行业的轰动。竞争对手的产品可以免费获得,但实际上它们比的GPU贵?那么,对手是否不必亏钱与竞争?
Huang 一直在公开场合谦虚并受到限制,但他偶尔表现出自己的优势。那个时候,他可能无法对的竞争状况受到质疑,他的语气有点“浪潮”。他乍看之下提到的所谓竞争对手是AMD或Intel,但是当他仔细品尝它时,据说它是另一个领域的竞争对手,即ASIC战场(特别筹码)。
应当指出的是,在全球高性能GPU(HPC和AI加速器领域)中已经吞噬了近450亿美元,而ASIC市场在2023年只有200亿美元。前者的高度垄断似乎并不担心广播公司和定制筹码对其市场份额的份额并不担心。
但是,如果您说Huang 不着急,那一定是假的。在AI潮流的驱动下,例如TPU在云或亚马逊AWS上的应用,许多公司都在考虑ASIC解决方案。在2023年,有传言称,也希望进入ASIC领域,并为美国的许多CSP(云服务提供商)提供定制服务。
还有“背饰” ?
据路透社报道,它正在开发其第一个自有的人工智能芯片,以减少对芯片的需求。路透社还声称,它将在最近几个月确定其芯片的最终设计,并将计划移交给TSMC进行芯片测试。
多年来,他一直是的主要客户之一。他们对非传播GPU解决方案的考虑是与的背刺有关。
培训和推理任务高度取决于的高性能GPU(例如A100,H100)。在2020年的论文中,有人提到GPT-3培训使用了约10,000 V100 GPU。但是,它从购买的特定数量尚未公开披露。这种类型的信息通常被视为商业秘密或涉及合作伙伴协议,因此外界很难获得准确的数据。
除了购买GPU外,在其合作模型中还有另外两个要点:他们深切依赖的CUDA平行计算平台和Cudnn加速库,以最大程度地提高GPU在深度学习任务中的表现; 还具有间接的合作,可以通过合作伙伴(例如 Azure和 AWS)提供云GPU资源,以支持其弹性计算需求。
的第一个DGX H200
当考虑使用更多专用硬件ASIC的可能性时,这主要是因为已经遭受了很长时间的痛苦。
的高端GPU不仅昂贵,而且具有极高的功耗,并且具有强大的定价能力,这会损害其“自尊”和财务上的利润率,并在某种程度上削弱了其声音和领导能力,以促进“星门”。
敢于采取这一步骤,我还看到实时实施商业用途的可能性 - 踩在 TPU的轴上。
TPU是由设计的ASIC,用于机器学习(尤其是神经网络培训和推理),该ASIC从硬件到软件完整堆栈进行了优化,避免了GPU的一般计算冗余。
的单芯片TPU V4的性能约为275,而 H100的计算能力为400,这似乎是一个巨大的差距,但是TPU V4可以避免以“集体战斗”方式单独战斗的缺点,而TPU的推论在低标准方面的表现更好。
尽管的高端GPU也需要HBM,但TPU使用的HBM高带宽内存与计算单元紧密结合以减少开销的数据处理。 GPU需要优化视频内存管理以避免瓶颈。
另一个非常重要的观点在本文开头回荡了主题:成本。
在 Cloud平台上,TPU的按需计费成本可能低于具有相同计算能力的GPU实例,尤其是对于长期培训任务或批次推断。作为托管服务,用户无需关注基础硬件操作和维护,但是自行构建的GPU群集需要更多的操作和维护资源。
所有这些都加快了与 soft脱钩的想法,双方都具有一定程度的离心力。
然而,采用ASIC解决方案的局限性仍然非常明显。 TPU绑定到特定的框架(/JAX),而GPU则支持更广泛的开源工具和私人部署。此外,一旦ASIC未经修改,GPU就可以通过体系结构升级和软件优化适应新需求。
GPU的“特殊功能”
Huang 以其行业的危机意识而闻名。他的著名说法“始终为一家公司在一个月内破产的努力做准备”是全球众所周知的。他不断敦促自己看到所有可能的挑战和危机。
他还清楚地了解了ASIC的影响。
在最近两代人的AI加速器(Grace和)中,他实际上使用了“通用 +专用”混合体系结构。他了解到,在AI培训/推理,科学计算和其他方案中对计算能力的需求迅速增加,并且一般体系结构难以满足能源效率和性能要求。专用硬件可以显着降低大型模型训练的成本(例如FP4/FP6支持稀疏计算)。
一位著名的国内GPU图形的营销经理渲染供应商告诉思维观察机构,通用芯片的性能提高正在放缓,并且通过特定领域特定的体系结构(DSA)实现差异化将成为不可避免的选择。
Grace和公司不断添加专用的硬件单元,例如RT Core,该单元专用于射线追踪硬件加速度,以进行深度学习矩阵操作优化(FP16/FP8精度,稀疏计算),并且该体系结构直接针对大语言模型(LLM)。
所有这些都表明,已经看到了 TPU和等专用AI芯片的威胁,迫使通过专业化巩固了其技术障碍。
仍然重要的是要指出,的高端GPU确实正在发展朝着特定领域的体系结构(DSA)发展,但其本质仍然是基于多功能性并通过专用模块提高关键场景的效率的混合模型,这与完全固化的Asic设计完全不同。
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论