AI大模型发展加剧能源危机?微软取消数据中心项目引关注

进不了网站?换个网络试试!

由| Huxiu ESG组

作者|陈尤利

标题图片|电影“矩阵”

本文是#ESG进度观察#系列中的第119篇文章

此观察的关键词:

去年中期,当AI模型如火如荼时,环境报告引起了媒体的“关注” - 自2019年以来,其总温室气体排放量增长了48%。

不仅,微软还在去年5月透露,二氧化碳排放量增加了近30%。科技巨头增加碳排放的核心原因归因于一个点 - 人工智能模型,硬件和数据中心的能源消耗急剧上升。可以说,如果AI军备竞赛的时代到来,人类可能会陷入他们从未预见过的能源危机。

但是最近情况发生了巨大变化。

最近,微软取消了其对威斯康星州和佐治亚州亚特兰大的两个数据中心项目的决定,涉及数百兆瓦的电力能力调整;此外,根据TD Cowen的最新研究报告,微软已终止与多个私人数据中心运营商的租赁协议,并暂停了一些国际资本支出计划。

这一系列的措施不仅反映了人工智能基础设施构建领域发生的结构变化,而且还被市场解释为AI投资繁荣的重要信号。分析师TD Cowen指出,微软战略调整的核心是处理“过度供应”行业的新常态。

随着AI概念股票的最新一般回调,它在某种程度上强调了资本对大型估值的态度的变化 - 这种“ cat鱼”造成的技术影响为大型模型的未来技术发展提出了一种新的思维途径。

较少的芯片和较低的培训成本也大大降低了AI计算能力可能带来的能源。在半开玩笑的是,如果由于人工智能计算能力的增加,人类没有陷入能源危机,那可能是“第一贡献”。

如何减少能耗?

的创始人Li Bojie认为,就技术而言,培训成本主要通过四个方面降低:

第一个是管道并行优化():通过设计向前传播和反向传播的交错执行(例如1F1B及其扩展策略),实现了计算任务和数据通信之间的完全重叠,从而最大程度地提高了GPU利用率,并在训练过程中缩短了“泡泡”时间。

第二个是冗余专家策略的负载平衡器(EPLB):在Moe(混合专家系统)体系结构下,不同专家的工作负载可能严重不平衡。 EPLB通过复制繁忙的专家并为某些专家共享负载,从而更有效地使用硬件资源,从而避免了一些GPU长时间闲置。

第三是FP8混合精度训练:与使用FP16/FP32传统混合精度训练相比,“ 8位浮点数广泛用于训练。”这大大减少了记忆和计算资源的消耗,不仅减少了培训过程中所需的硬件资源,而且还会间接降低能源消耗和相关的功耗。

第四,多言论预测(MTP):通过一次生成多个代币,提高了信息利用率,这不仅提高了培训和推理效率,而且还有助于缩短整体培训时间并减少计算资源消耗。

特别是针对GPU的能耗水平,根据Li Bojie的计算,预培训消耗了约266万小时的GPU小时,而增强学习(RL)阶段消耗了约50万小时的GPU小时,总计约3160万GPU小时。

假设使用了H800 GPU,那么此类数据中心级GPU的功耗通常在500W至700W之间,平均值为600W,即每个GPU每小时消耗0.6 kWh的电力。最终的总能源消耗≈GPU小时×每小时平均功耗,结果约为1.9 gwh的电力消耗。

为了进行比较,我们使用GPT-4 MOE来计算其在GPU中的功耗。根据Huang 的讲话,GPT-4 MOE在90天的培训中使用了8,000 H100 GPU,总GPU卡时间为1728万GPU小时。 H100 GPU的设计功耗(TDP)为500-750W,平均值为600W,可以计算出来,以表明最终总能源消耗约为10.4GWH,是5倍。

Huxiu ESG集团在文章“ AI革命是“能源”的“灾难”中,普通家庭的电力消耗大约一年,这意味着节省的电力足以让近10,000户家庭使用一年。

Li Bojie指出,人工智能大型模型如此耗费能源的原因是当前的主流LLM模型使用基于建筑的深神经网络算法。该体系结构算法通过自我发挥的机制来处理数据,并考虑序列的不同部分或句子的整个上下文,从而生成模型结果的预测。

“市场上的高级LLM通常包含万亿级参数。参数越多,模型越复杂,训练过程中的计算量就越大。”

通过优化训练模型(引入公牛的潜在注意力机制),并引入新的强化学习算法,GRPO和其他措施,同时显着降低了计算成本,该模型的训练效率也得到了提高,最终仅实现了1/10的模型培训成本和1/30的USAGE成本。

根据国际能源局的数据,美国有2700个数据中心在2022年消耗了该国总电量的4%以上;预计到2026年,全球数据中心的电力消耗将翻一番。但是,从触发的“成本降低”触发的情况下,数据中心引起的功耗可能不是那么大。

间接的能耗很大

与技术创新所带来的训练能源消耗大大减少相比,通过技术创新带来的碳减少空间也很大。

从市场竞争的角度来看,面对技术创新带来的“成本降低”压力,许多AI公司正在加速消除效率低下的模型体系结构,其中最典型的是Meta。

Meta首席执行官扎克伯格()称2025年为“ AI的决定性年”,并希望Meta AI成为为超过十亿人民服务的领先助理。但是面对元带来的新挑战已经陷入了恐慌模式。

今年早些时候的报告报告说,META的AI团队领导层包括AI基础设施总监 ,最近担心Meta在AI比赛中落后。他们特别担心Meta的下一代旗舰AI Llama在本季度的表现会更糟。根据引用的两名META员工的说法,Meta建立了多个“战室”或专业的研究团队,以分析和使用其见解来改善美洲驼。

至于马斯克的Grok 3,在堆叠200,000 H100图形卡后,其评分测试的确高于此。但是,如此大量的计算功率会带来更大的能耗。根据 v Taosa博士的说法,GROK3的单次培训的碳排放量相当于46,000辆汽车的年度排放量,而单位的能耗效率比Grok3低67%。

无论麝香多么富裕,他都不能在不服用捷径的情况下继续“浪费”。 轮到了支持,Meta开始研究算法足以表明它正在颠覆AI巨人的“暴力奇迹”模型,该模型堆叠了计算能力和芯片,并朝着精致的操作迈进。

除了从供应链上游和下游的市场竞争的角度来看,它还对能源行业“很好”。离开圈子之后,除夕的前一天,能源供应商的股价下降了21%,以及除夕的前一天,以及电力公司下降的第二天。

“重置中国与美国在人工智能领域的竞争环境,更重要的是,它从根本上颠覆了能量领域。”国际税收和投资中心能源,增长和安全项目助理主任希尔在发表在《福布斯》杂志上的一篇签署文章中说,世界上许多国家基于基本假设制定能源政策,即人工智能不可避免地会推动不断增长的需求并不再存在。

最后,它在赋予传统能源公司的能力方面也可以具有惊人的表现。例如,对于化学公司,可以通过对生产数据的实时分析(例如反应参数和设备状态)来动态调整过程条件。一些垂直的自我媒体指出,在通过模型优化过程参数后,在甲醇蒸馏装置中,蒸汽消耗可以减少15%,产品产量可以提高8,设备综合效率(OEE)可以提高12%。

最近还报道说,-R1模型已经完成了对进口GPU和国内GPU平台的验证测试,并且推断计算效率几乎翻了一番。将来,它可以应用于的核心领域,例如地震数据处理,储层开发和优化以及化学产品研究与开发。

总而言之,通过技术破坏,成本重建和开源生态系统,在培训链接和企业级别的应用中产生了清晰的节能案例,将来能够节约和降低碳的空间仍然很大。

广泛的社会利益

在分析了这一点之后,它在ESG的“ E(E(环境))”中都表现良好,但是它在“ S()”和“ G( )”中也具有出色的案例申请。

在“ G(公司治理)”一级,中国商业新闻最近发表了一篇文章,指出,随着微信巨头和百度等技术巨头的访问,各个地方的政府事务系统已经启动了基于全堆栈国内技术的-R1智能模型,从而导致计算能力需求的急剧增加。随着许多领域的巨大努力,对社会计算能力的需求将在未来继续增长。

根据该论文,在“ S(社会)”一级,广西尤林市县的一些乡镇将用于监测贫困复发。 “通过对镇上贫困家庭的数据的动态分析,准确地确定潜在的风险家庭,并自动产生援助建议,与传统方法相比,分析效率提高了50%。”

从这个角度来看,ESG各个方面的潜在增强价值无疑具有相当大的发展空间,无疑是“隐藏在城市中的大型”。

当前的人工智能可能只是一侧。首先反映出其效率的工具理性,以及将环境友好,社会公平和公司治理纳入技术进化的内部逻辑,将为人类带来更多惊喜,以促进社会的可持续发展。

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论