DeepSeek公开推理系统架构,成本利润率高达545%,性能优化引领AI新潮流

进不了网站?换个网络试试!

[简介]公共推理系统体系结构,成本利润率可以达到545%!明天会有更大的惊喜吗?

刚才,当每个人都认为开源周结束时,“ Open AI”确实带来了结局戏剧-V3/R1推理系统,该系统已完全揭示!

吞吐量和延迟优化:

在线服务绩效数据:

他说,他希望本周分享的技术见解能为开源社区带来价值,并共同促进通用人工智能的发展目标。

DeepSeek公开推理系统架构,成本利润率高达545%,性能优化引领AI新潮流插图

当网民看到这个时,他们感到震惊!

因此,基本自由的成本基础率高达545%,但是世界上最昂贵的是损失钱?

DeepSeek公开推理系统架构,成本利润率高达545%,性能优化引领AI新潮流插图1

系统设计原理

简而言之,-v3/r1推理服务的优化目标是改善吞吐量并减少延迟。

为了实现这两个目标,团队采用了跨节点专家并行(,EP)技术。

首先,EP显着扩大了批次处理量表,提高了GPU矩阵计算效率,从而提高了吞吐量。

其次,EP在不同的GPU上分发专家模块,每个GPU仅处理少量的专家模块(减少内存访问要求),从而减少延迟。

但是,EP还增加了系统的复杂性,主要反映在两个方面:

EP引入跨节点通信。为了优化吞吐量,有必要设计合理的计算工作流程,以便可以并行进行通信过程和计算过程。

EP涉及多个节点,因此需要数据并行性(数据,DP),并且在不同的DP实例之间需要负载平衡。

为此,以下方式解决了这些挑战:

大规模跨节点专家并行性(EP)

-v3/r1包含大量专家模块:每层256个专家中只有8个被激活,因此该模型的高稀疏特性需要大量的总批量大小。

这样可以确保每个专家模块获得足够的批量量,从而导致较高的吞吐量和较低的延迟。因此,大规模的跨节点EP技术已成为必不可少的选择。

采用了预填充编码的解耦架构( - ),并在填充和解码阶段采用了不同程度的平行策略:

填充阶段“路由专家EP32,MLA/共享专家DP32”:每个部署单元跨越4个节点,并配置为32个冗余路由专家。每个GPU负责处理9位路由专家和1名共享专家。

解码阶段是“路由专家EP144,MLA/共享专家DP144”:每个部署单元跨越18个节点,配置为32个冗余路由专家,每个GPU管理2个路由专家和1个共享专家。

计算通信重叠处理

大型跨节点EP技术引入了大量的通信开销。

为了减轻这个问题,采用双批次重叠策略将相同的一批请求分为两个,以隐藏通信成本并增加总体吞吐量。

在预填充阶段,两个人交替执行,一个一个的通信开销被另一个的计算过程掩盖。

DeepSeek公开推理系统架构,成本利润率高达545%,性能优化引领AI新潮流插图2

在解码阶段,每个执行阶段的持续时间都存在不平衡。

为此,有必要将注意力层细分为两个步骤,并采用五阶段管道(5阶段)技术,以实现计算和通信之间的无缝重叠。

DeepSeek公开推理系统架构,成本利润率高达545%,性能优化引领AI新潮流插图3

达到最佳负载平衡

大规模并行性,包括数据并行DP和专家并行EP,提出了一个关键的挑战:如果单个GPU在计算或通信方面超载,它将成为整个系统的性能瓶颈,从而导致系统速度下降,同时导致其他GPU资源闲置。

为了最大程度地利用资源利用,目标是在所有GPU上实现计算和通信负载的平衡。

1。预填充相位负载平衡器

2。解码阶段负载平衡器

3。专家并行负载平衡器

在线推理系统图

DeepSeek公开推理系统架构,成本利润率高达545%,性能优化引领AI新潮流插图4

在线服务统计

所有-V3/R1推理服务在H800 GPU上运行,与培训相一致。

具体而言,矩阵乘法和分布传输使用与培训一致的FP8格式,而核心MLA计算和组合传输则使用BF16格式来确保最佳的服务性能。

此外,由于白天的高负荷和低夜间负载,团队采用了一种创新的机制:

在白天高峰时段,所有节点都部署推理服务;在夜间低负载小时内,推理节点减少,资源分配给研究和培训。

在过去的24小时中(2月27日中午12:00,2月28日中午12:00),总峰节点占278,平均为226.75个节点(每个节点包含8 h800 gpus)。

假设租用H800 GPU的费用为每小时2美元,每日总费用为87,072美元。

DeepSeek公开推理系统架构,成本利润率高达545%,性能优化引领AI新潮流插图5

在24小时统计期间,V3和R1:

以上统计信息包括来自网页,应用程序和API的所有用户请求。

如果所有令牌按以下-R1定价计费,每日总收入将达到562,027美元,利润率为545%。

R1定价:输入令牌(命中率)每百万美元0.14美元,输入Token(Cache Miss)每百万美元0.55美元,产出代币每百万美元2.19美元。

但是,由于以下原因,实际收入大大低于此数字:

DeepSeek公开推理系统架构,成本利润率高达545%,性能优化引领AI新潮流插图6

参考:

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论