DeepSeek公开推理系统架构，成本利润率高达545%，性能优化引领AI新潮流

立即下单

进入商城

进不了网站？换个网络试试！

[简介]公共推理系统体系结构，成本利润率可以达到545％！明天会有更大的惊喜吗？

刚才，当每个人都认为开源周结束时，“ Open AI”确实带来了结局戏剧-V3/R1推理系统，该系统已完全揭示！

吞吐量和延迟优化：

在线服务绩效数据：

他说，他希望本周分享的技术见解能为开源社区带来价值，并共同促进通用人工智能的发展目标。

当网民看到这个时，他们感到震惊！

因此，基本自由的成本基础率高达545％，但是世界上最昂贵的是损失钱？

系统设计原理

简而言之，-v3/r1推理服务的优化目标是改善吞吐量并减少延迟。

为了实现这两个目标，团队采用了跨节点专家并行（，EP）技术。

首先，EP显着扩大了批次处理量表，提高了GPU矩阵计算效率，从而提高了吞吐量。

其次，EP在不同的GPU上分发专家模块，每个GPU仅处理少量的专家模块（减少内存访问要求），从而减少延迟。

但是，EP还增加了系统的复杂性，主要反映在两个方面：

EP引入跨节点通信。为了优化吞吐量，有必要设计合理的计算工作流程，以便可以并行进行通信过程和计算过程。

EP涉及多个节点，因此需要数据并行性（数据，DP），并且在不同的DP实例之间需要负载平衡。

为此，以下方式解决了这些挑战：

大规模跨节点专家并行性（EP）

-v3/r1包含大量专家模块：每层256个专家中只有8个被激活，因此该模型的高稀疏特性需要大量的总批量大小。

这样可以确保每个专家模块获得足够的批量量，从而导致较高的吞吐量和较低的延迟。因此，大规模的跨节点EP技术已成为必不可少的选择。

采用了预填充编码的解耦架构（ - ），并在填充和解码阶段采用了不同程度的平行策略：

填充阶段“路由专家EP32，MLA/共享专家DP32”：每个部署单元跨越4个节点，并配置为32个冗余路由专家。每个GPU负责处理9位路由专家和1名共享专家。

解码阶段是“路由专家EP144，MLA/共享专家DP144”：每个部署单元跨越18个节点，配置为32个冗余路由专家，每个GPU管理2个路由专家和1个共享专家。

计算通信重叠处理

大型跨节点EP技术引入了大量的通信开销。

为了减轻这个问题，采用双批次重叠策略将相同的一批请求分为两个，以隐藏通信成本并增加总体吞吐量。

在预填充阶段，两个人交替执行，一个一个的通信开销被另一个的计算过程掩盖。

在解码阶段，每个执行阶段的持续时间都存在不平衡。

为此，有必要将注意力层细分为两个步骤，并采用五阶段管道（5阶段）技术，以实现计算和通信之间的无缝重叠。

达到最佳负载平衡

大规模并行性，包括数据并行DP和专家并行EP，提出了一个关键的挑战：如果单个GPU在计算或通信方面超载，它将成为整个系统的性能瓶颈，从而导致系统速度下降，同时导致其他GPU资源闲置。

为了最大程度地利用资源利用，目标是在所有GPU上实现计算和通信负载的平衡。

1。预填充相位负载平衡器

2。解码阶段负载平衡器

3。专家并行负载平衡器

在线推理系统图

在线服务统计

所有-V3/R1推理服务在H800 GPU上运行，与培训相一致。

具体而言，矩阵乘法和分布传输使用与培训一致的FP8格式，而核心MLA计算和组合传输则使用BF16格式来确保最佳的服务性能。

此外，由于白天的高负荷和低夜间负载，团队采用了一种创新的机制：

在白天高峰时段，所有节点都部署推理服务；在夜间低负载小时内，推理节点减少，资源分配给研究和培训。

在过去的24小时中（2月27日中午12:00，2月28日中午12:00），总峰节点占278，平均为226.75个节点（每个节点包含8 h800 gpus）。

假设租用H800 GPU的费用为每小时2美元，每日总费用为87,072美元。

在24小时统计期间，V3和R1：

以上统计信息包括来自网页，应用程序和API的所有用户请求。

如果所有令牌按以下-R1定价计费，每日总收入将达到562,027美元，利润率为545％。

R1定价：输入令牌（命中率）每百万美元0.14美元，输入Token（Cache Miss）每百万美元0.55美元，产出代币每百万美元2.19美元。

但是，由于以下原因，实际收入大大低于此数字：

参考：

本站候鸟号已成立3年，主要围绕财经资讯类，分享日常的保险、基金、期货、理财、股票等资讯，帮助您成为一个优秀的财经爱好者。本站温馨提示：股市有风险，入市需谨慎。

DeepSeek公开推理系统架构，成本利润率高达545%，性能优化引领AI新潮流

2025年城乡居民基础养老金上涨，江苏率先调整至247元，中央定调提升标准

3月新规解读：公立医疗机构取消门诊预交金，看病就医更省心

暂无评论

发表评论取消回复

DeepSeek公开推理系统架构，成本利润率高达545%，性能优化引领AI新潮流

2025年城乡居民基础养老金上涨，江苏率先调整至247元，中央定调提升标准

3月新规解读：公立医疗机构取消门诊预交金，看病就医更省心

相关推荐

暂无评论

发表评论 取消回复

搜索

DeepSeek公开推理系统架构，成本利润率高达545%，性能优化引领AI新潮流

DeepSeek公开推理系统架构，成本利润率高达545%，性能优化引领AI新潮流

发表评论取消回复