[简介]公共推理系统体系结构,成本利润率可以达到545%!明天会有更大的惊喜吗?
刚才,当每个人都认为开源周结束时,“ Open AI”确实带来了结局戏剧-V3/R1推理系统,该系统已完全揭示!
吞吐量和延迟优化:
在线服务绩效数据:
他说,他希望本周分享的技术见解能为开源社区带来价值,并共同促进通用人工智能的发展目标。
当网民看到这个时,他们感到震惊!
因此,基本自由的成本基础率高达545%,但是世界上最昂贵的是损失钱?
系统设计原理
简而言之,-v3/r1推理服务的优化目标是改善吞吐量并减少延迟。
为了实现这两个目标,团队采用了跨节点专家并行(,EP)技术。
首先,EP显着扩大了批次处理量表,提高了GPU矩阵计算效率,从而提高了吞吐量。
其次,EP在不同的GPU上分发专家模块,每个GPU仅处理少量的专家模块(减少内存访问要求),从而减少延迟。
但是,EP还增加了系统的复杂性,主要反映在两个方面:
EP引入跨节点通信。为了优化吞吐量,有必要设计合理的计算工作流程,以便可以并行进行通信过程和计算过程。
EP涉及多个节点,因此需要数据并行性(数据,DP),并且在不同的DP实例之间需要负载平衡。
为此,以下方式解决了这些挑战:
大规模跨节点专家并行性(EP)
-v3/r1包含大量专家模块:每层256个专家中只有8个被激活,因此该模型的高稀疏特性需要大量的总批量大小。
这样可以确保每个专家模块获得足够的批量量,从而导致较高的吞吐量和较低的延迟。因此,大规模的跨节点EP技术已成为必不可少的选择。
采用了预填充编码的解耦架构( - ),并在填充和解码阶段采用了不同程度的平行策略:
填充阶段“路由专家EP32,MLA/共享专家DP32”:每个部署单元跨越4个节点,并配置为32个冗余路由专家。每个GPU负责处理9位路由专家和1名共享专家。
解码阶段是“路由专家EP144,MLA/共享专家DP144”:每个部署单元跨越18个节点,配置为32个冗余路由专家,每个GPU管理2个路由专家和1个共享专家。
计算通信重叠处理
大型跨节点EP技术引入了大量的通信开销。
为了减轻这个问题,采用双批次重叠策略将相同的一批请求分为两个,以隐藏通信成本并增加总体吞吐量。
在预填充阶段,两个人交替执行,一个一个的通信开销被另一个的计算过程掩盖。
在解码阶段,每个执行阶段的持续时间都存在不平衡。
为此,有必要将注意力层细分为两个步骤,并采用五阶段管道(5阶段)技术,以实现计算和通信之间的无缝重叠。
达到最佳负载平衡
大规模并行性,包括数据并行DP和专家并行EP,提出了一个关键的挑战:如果单个GPU在计算或通信方面超载,它将成为整个系统的性能瓶颈,从而导致系统速度下降,同时导致其他GPU资源闲置。
为了最大程度地利用资源利用,目标是在所有GPU上实现计算和通信负载的平衡。
1。预填充相位负载平衡器
2。解码阶段负载平衡器
3。专家并行负载平衡器
在线推理系统图
在线服务统计
所有-V3/R1推理服务在H800 GPU上运行,与培训相一致。
具体而言,矩阵乘法和分布传输使用与培训一致的FP8格式,而核心MLA计算和组合传输则使用BF16格式来确保最佳的服务性能。
此外,由于白天的高负荷和低夜间负载,团队采用了一种创新的机制:
在白天高峰时段,所有节点都部署推理服务;在夜间低负载小时内,推理节点减少,资源分配给研究和培训。
在过去的24小时中(2月27日中午12:00,2月28日中午12:00),总峰节点占278,平均为226.75个节点(每个节点包含8 h800 gpus)。
假设租用H800 GPU的费用为每小时2美元,每日总费用为87,072美元。
在24小时统计期间,V3和R1:
以上统计信息包括来自网页,应用程序和API的所有用户请求。
如果所有令牌按以下-R1定价计费,每日总收入将达到562,027美元,利润率为545%。
R1定价:输入令牌(命中率)每百万美元0.14美元,输入Token(Cache Miss)每百万美元0.55美元,产出代币每百万美元2.19美元。
但是,由于以下原因,实际收入大大低于此数字:
参考:
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论