十万卡集群成趋势?百度、字节、阿里等头部企业已行动

进不了网站?换个网络试试!

国内多家领先企业已经采取行动,打造十万卡集群。

在11月12日举行的百度世界2024大会上,百度集团执行副总裁、百度智能云事业群总裁沉斗透露,为了支撑大模型的进一步快速发展,百度一直在打磨十万——卡集群功能。两大问题取得关键突破。与此同时,字节和阿里巴巴在智能计算领域投入巨资。今年以来,华为还与厂商联手攻克更大规模的集群。

有必要建10万卡集群吗?过去24个月,在大车型超级应用尚未出现的情况下,中国行业已经开始反思——全球大车型热潮是新的技术革命还是新一轮泡沫?

在这次发布会上,百度创始人李彦宏透露了一个数字。文信模式日均通话量达到15亿次,而六个月前为2亿次。 “‘应用即将到来’代表了我们目前对大型模型和生成式人工智能的理解和判断。”李彦宏说道。这条下半年突然变得陡峭的曲线在一定程度上提供了证据。

十万卡集群成趋势?百度、字节、阿里等头部企业已行动插图

这也是中国云厂商进行技术准备的现实考虑。由于投资和芯片的限制,中国云厂商的表现并不激进。但由于客户需求的快速增长,也在逐步向10万卡集群迈进。

企业智能计算投资热情高涨

百度优秀系统架构师王彦鹏近几个月频繁接触大学客户。 “他们对计算能力的需求正在增加。”

今年的诺贝尔物理化学奖颁给了人工智能相关专家,引起广泛关注。 “大家最兴奋的是,以前的AI是各种模型来做的,现在搞蛋白质的、搞数学的……都可以‘捏’成大模型。核心架构甚至全部都可以。” ”王彦鹏告诉数智前线。高校办学热情普遍高涨。最近,预算增加了,他们获得了建设智能计算基础设施的资金。

例如,上海交通大学改变了传统的科研模式,希望将科学与人工智能更加紧密地结合起来。他们与百度智能云合作,打造了自己的AI科学数据开源开放平台,支持科学模型的训练。依托AI for平台,上海交通大学封面刊登了AI+城市的科学成果。在公开招标平台上,近期已有更多高校发布智能计算相关招标公告。

汽车公司是目前智能计算的最大购买者。 “我们的研究表明,用户愿意为简单易用的智能驾驶付费。”某大型车企人士表示。而且,端到端的智能驾驶技术比原来由很多小模型串联而成的智能驾驶“更加拟人化”,已经成为行业主流解决方案。明确的方向让车企更愿意投资。该人士判断,未来1到2年,车企的智能算力将大约翻两番。

十万卡集群成趋势?百度、字节、阿里等头部企业已行动插图1

“在教育行业,最大的梦想就是实现大规模因材施教。”好未来集团CTO田蜜表示,“AI老师给了我们一线希望,有了大模型,一切AI教育技术都值得重做。”大模型可以解决问题、讲课、练习口语、批改作业、为学生提出个性化的学习建议。

“大工厂可以从头开始,小工厂可以通过API调用、微调、RAG来完成。作为中型工厂或者垂直领域的龙头企业,我们还是需要在基础上做后期培训最好的开源模型。”田蜜说道。去年,好未来推出了九丈大车型。为此,好未来在百度智能云上拥有并租赁了数千张卡,这是教育行业中最好、最高的。大型模型正在以各种形式实现,例如学习机和应用程序,并通过API向社会开放。手机、平板电脑、PC、新能源汽车都开始使用它们。

十万卡集群成趋势?百度、字节、阿里等头部企业已行动插图2

在餐饮行业,消费者已经不自觉地使用了大型模型技术。 “百胜中国是第一家开始使用生成式人工智能的餐饮公司。”百胜中国首席技术官张磊表示。是国内最大的餐饮企业。在人们经常使用的App小程序和外卖平台中,百胜餐饮采用了百度智能云的科悦AI智能客服系统,解决了肯德基、必胜客在线订餐极为多样化的服务需求。每天协助处理超过15名客户。数以千计的消费者通讯。

张雷表示,未来将以AI原生的方式在管理、运营、生产、贸易等各个环节进行技术重构。

去年以来,国家电网利用文信大模型和千帆平台,结合电力行业优质数据,共同打造电力行业大模型的基础基础,探索人工智能在电力行业等六大专业领域的原生应用。如调度、设备和营销。国家电网公司将于近期正式发布相关结果。

十万卡集群成趋势?百度、字节、阿里等头部企业已行动插图3

“据我了解,所有行业都已重建。”田蜜说道。越来越多的大中型互联网公司、车企、龙头国企等都在培养自己的行业或企业大模型。

他们的共同点是拥有大量的私域数据、独特的业务和研发能力。然而,他们并不是从头开始训练一般的大型模型。相反,他们对开源或商业模型进行深入的后期培训,以适应各种场景。构建自己的数据飞轮并有业务预期。这些企业的需求进一步刺激了智能计算市场。

值得注意的是,大模型范式下,算力和算法的重要性开始对等,这引起了企业投资比例的变化。

“我们算了一下,四五年前开始研发智能驾驶的时候,我们要投入大量的算法和规则开发工程师,人力、数据和算力的投入比例是6:2:2。”某车企人士表示,“但现在端到端的智能驾驶研发需要更大的算力,我们初步预计上述比例将变成2:3:5,投入的50%甚至更高”是计算能力。”

有趣的是,这些龙头企业无论是使用公有云还是自建数据中心,都找到了云厂商。 “我们主动找到了百度智能云。”田蜜说,“你会发现,只有大厂商才能对Infra(基础设施)投入如此细致。”

十万卡集群成趋势?百度、字节、阿里等头部企业已行动插图4

IDC中国研究总监刘利辉表示,到2026年,超过一半的企业将在生成式AI基础设施和相关平台工具方面与云厂商达成合作。

云供应商面临压力

百度王彦鹏观察到,在积极投资的企业中,行业龙头的典型算力需求在1000到5000卡左右,而大型初创企业的需求则在10000卡级别。

这些企业在训练和推理过程中都遇到了各种各样的问题。他们对智能计算基础设施提出了四大需求——高速网络互联、集群稳定性、资源利用率、大模型训练和推理工具等,这些需求与CPU云时代完全不同。

例如,有人将 GPU 比作赛车。为了最大限度地发挥赛车的性能,必须为其建造专业的赛道。企业在构建GPU集群时,要求云厂商提供更好的网络硬件互联架构。

稳定是一件至关重要的事情。 CPU的功耗只有二三百瓦,GPU已经有1500瓦了。黄仁勋因此被戏称为“核弹狂人”。高功耗意味着高集成度,容易出现故障。 “我们测算过,按照现在的市场价格,一个千卡集群每天的租金是2万到30万元,如果平台稳定性不好,我们的损失将是巨大的。”一位汽车公司人士说道。视频大模型公司的人士告诉数字智能前沿,他们的核心诉求是“稳定”。平台的稳定,保证了他们在视频生成核心技术“高一致性”上取得突破。

资源利用率也是企业最关心的问题,因为GPU太贵了,利用率决定ROI。

这些需求给云供应商带来了压力。 “过去一年左右,大模型正在重塑AI计算模型。”一位云厂商的资深人士表示,“我从来没有见过任何技术浪潮能够像这一轮大模型一样,从上到下。我们的技术是如此具有颠覆性。”

以前,基础设施是以 CPU 为中心的系统。它的核心点是极致的灵活性和极致的性价比,而我们最大的驱动力就是提高效率、降低成本。

十万卡集群成趋势?百度、字节、阿里等头部企业已行动插图5

大模型时代,基础设施已经转向极高密度、极致互联、极致规模。国外今年已经从十万卡集群走向了百万卡集群。用不了多久,数据中心就会“缩”成一个机柜或一个节点。

基础设施已经从过去提高效率、降低成本转变为全面追求技术创新带动整个业务发展的阶段。每一个从业者也在奔向如何赶上法律的发展。百度集团副总裁侯振宇在一次会议上表示,近年来,百度内部提到最多的就是800G/T级别的互联、高密度存储、异地异网异构调度、训练融合等。和促销...

由于过去十年对AI整体的投入,百度从2009年开始成为中国互联网企业中最早使用GPU进行集群加速的公司,2021年已经建成三四千卡单任务GPU集群并逐步形成了技术栈丰富的百度白鸽异构计算平台。

“CPU IaaS是通用平台,但GPU IaaS不同,它追求GPU算力端到端性能最优,需要提供更厚的技术栈,才能轻松发挥算力。”百度王彦鹏对数智慧前线讲解。

基于百度白鸽的技术栈,解决领先企业的算力问题。在长安汽车,GPU的综合利用率最初并不是很高。长安汽车联合百度智能云使用百格平台安排调度训练任务,GPU利用率提升40%以上。

大型视频模型初创公司圣数科技表示,基于百度白鸽稳定、超大的算力集群,在推出Sora仅40天后,就推出了自主研发的视频大模型Vidu。在训练中,他们应用了百格平台计算集群的任务分发、队列调度和训练加速,“缩短了Vidu的研发周期”。

“我们的迭代速度非常快,无论是新功能还是基础模型能力。”在Vidu上线100多天的时候,盛树科技于11月13日推出了Vidu 1.5新版本,率先攻克了“多智能体一致性”问题。

作为首款投放市场的模式,圣数科技已在影视、动漫、文旅等领域落地。例如,最近漫威电影《毒液3》的水墨风格AI宣传视频就是由Vidu生成的。

朝着 100,000 张卡的目标迈进

国内云计算厂商仍在进一步进步,但他们的做法和考虑也更加理性和现实。

在海外,美国市场经历了充分有效的竞争后,之前热闹非凡的大型模特公司纷纷出卖自己。今年,制作基础大型模型的公司数量迅速缩减至五家——Meta、谷歌和马斯克。它的xAI。

这些巨头的算力竞争门槛已经达到了10万卡。微软计划到明年年底提供约30万个最新的GB200图形处理器。但它似乎并不满足,并已与甲骨文达成协议。 正在设计一个超级数据中心,其功率将达到1000兆瓦,相当于超过50万个 GPU;

Meta的小扎也不甘落后,表示Llama 4模型正在10万块H100 GPU集群上进行训练;马斯克的xAI已于今年7月构建了一个包含10万张卡的集群,并将在未来几个月内再添加10万张卡。 ,其中 50,000 个将是 H200 卡。

在百度世界2024大会上,沉斗透露,百度已经用10万卡集群解决了两个问题。一是在一云多核的情况下,两颗芯片混合训练的性能损失控制在5%以内,属于业界领先水平。这项技术是针对芯片供应紧张以及一些企业对国产算力的强烈需求而开发的。

另一个难点是跨区域机房的部署。百格将单个训练任务集群的性能损失控制在4%以内,这也是业界领先的水平。解决了电力和机房空间的问题。一个10万卡集群每天耗电300万千瓦时,相当于北京市东城区居民一天的用电量;所需面积相当于14个标准足球场。通过高效拓扑、跨区域无拥塞高性能网络、高效模型并行训练等解决方案,在跨越数十公里的多个机房上实现。

然而,现在业界有一个疑问:2020年提出的该法还有效吗?有必要追十万卡簇吗?王彦鹏承认,他们看到罗确实在放缓。这也是o1颇受欢迎的原因之一。它采用强化学习(Self-play)模式,开创了模型的新维度。

国内一些龙头企业实际上早在半年多前就已经将更多的精力转向了强化学习。通过计算能力创建更多的数据,人们对每一步进行评分,给数据贴上标签,并对模型进行奖励,以强化它,让模型变得更加智能。

十万卡集群成趋势?百度、字节、阿里等头部企业已行动插图6

强化学习还降低了模型训练的计算能力要求。但这并不意味着中国将保持在千卡至万卡集群的水平。大型车型正在进入更多行业。王彦鹏预测,明年算力的需求将主要是训练。对算力的需求正在快速增长,企业也在性能和成本方面对算力提出了进一步的需求。

“比如大车型的初创企业,融资压力很大,所以对成本的要求非常强烈。”王彦鹏说道。

目前,公有云是企业进行大型模型训练的主流方式。云厂商往往采取“服务一企业、建集群”的方式。但这种方法有一个明显的缺点,那就是当企业的训练任务不在高峰期时,集群中的计算资源闲置,造成资源浪费。当十万卡集群出现时,云厂商可以依靠这个大集群为众多企业提供服务,并根据不同企业的需求动态分配计算资源,不仅提高了资源利用率,还降低了企业成本。

“当我们能够解决十万卡集群技术的问题,比如上面提到的跨区域RDMA技术、多核混合训练技术、容错技术时,我们就不需要建设大型的单机房了,而是将几个机房整合在一起。提供更好的云平台也给大家带来更好的成本。同样的逻辑也适用于多核技术。”他进一步说道。

本站候鸟号已成立2年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论