从大大降低了训练成本的MLA模型的性能比较,R1和O1模型的表现,人均工资为1000万错误的。据推测它有大约50,000 gpus ...
关于目前的许多谣言,本文根据现有信息提供了更多客观的讨论。
图灵奖得主杨·夸,最近再次表达了他的观点。他指出,硅谷某些圈子的常见问题被确定,其他地方的创新是通过作弊获得的。
为了在技术方面取得快速的进步,需要允许更多的才能参与并分享创新的结果。在开源模型中,我们还看到了这个愿景。
报告原始文字:
Appso在此分析报告中编写了关键点:
据推测,大约有50,000 gpus,而对GPU的总投资超过5亿美元
600万美元讨论的成本仅是指GPU在培训过程中的成本,这只是总模型成本的一部分。
该团队目前约有150人,从北京大学等中国大学招募人才,年薪可以达到1000万
多潜在的关注(MLA)是一项关键创新,可大大降低推理成本。它将每个查询所需的KV缓存降低约93.3%
在推理性能方面,R1与O1相当,O3的功能明显高于R1和O1。
风暴席卷了世界
在过去的一周中,它已成为世界上唯一的热门话题。
目前,日常工作(据报道超过1900万)更高甚至更高。
但是,对于那些长期关注AI行业的人来说,这一消息并不新鲜。我们已经讨论了几个月,我们对这家公司并不陌生,但是疯狂的猜测是出乎意料的。它一直被认为是非常有才华的,美国广泛的公众不在乎。
当世界最终关注这家公司时,热情的舆论并没有完全反映其真实情况。
我们要强调的是,公众舆论已经改变。上个月,当法律违反时,我们揭示了这个神话。现在,算法的改进太快了,在某种程度上对和GPU不利。
现在,每个人都讨论了效率如此之高,以至于我们不再需要更多的计算资源。由于模型的变化,产能过剩。
尽管Jevon S也超过了现实,但它更接近现实,因为这些模型已经引起了需求,并对H100和H200的价格产生了重大影响。
编者注:简单来说,杰维斯的悖论简单地说。在提高了一些资源的效率之后,尽管在使用过程中消费较少,但由于成本降低和更方便的使用,它可能会使人们使用更多。结果,总体消费增加。
50,000元GPU
幻想量化是中国对冲基金,也是第一个在其交易算法中采用AI的先驱。他们已经意识到AI的潜力和扩张能力的重要性很早,因此不断增加GPU的供应。
在使用数千个GPU群集进行模型实验之后,在引入任何出口限制之前,将幻想量化投资于10,000 A100 GPU。
投资退还了。随着魔术的持续改善,他们意识到是时候在2023年5月攻击进一步的AI功能了。
当时,由于对AI的兴趣不足(主要关注商业模式问题),幻想定量自我兑现的资金建立了公司。如今,量化和频繁共享资源,包括人力和计算资源。
如今,它已经发展成为一个严肃而协调的项目,这绝不是许多媒体所调用的“边线项目”。
我们认为,即使考虑出口控制因素,它们对GPU的总投资超过5亿美元。
我们认为他们有大约50,000 GPU,但这与拥有50,000 h100 gpus不同。
已根据不同的法规推出了不同版本的H100(例如H800和H20)。目前,中国模型公司只能使用H20。应该注意的是,H800的计算能力与H100相同,但其网络带宽较低。
我们相信大约有10,000 h800和约10,000 h100。此外,他们还订购了更多的H20。在过去的九个月中,在中国市场上生产的GPU超过了这种GPU。
这些GPU在幻想食谱之间共享,并且在地理上分布。它们用于交易,推理,培训和研究。
我们的分析表明,服务器资本的总成本约为16亿美元,其中操作这些集群的成本高达9.44亿美元。
同样,由于资源集中率是一个主要挑战,因此所有AI实验室和大型云服务提供商都有大量用于单个培训操作的GPU,这些GPU用于研究和培训任务。
年工资接近1000万,在中国大学挖掘最高人才
它是从中国到过去的资格的不受约束的,但非常重视能力和好奇心。定期在北京大学和千江等顶级大学中开展招聘活动,许多员工已从这些大学毕业。
工作职责是完全固定的,招聘时将有一定的灵活性。招聘广告甚至声称它可以无限制地致电10,000多个GPU。
这些职位极具竞争力。据说他们的薪水超过130万美元(约934万元人民币),该候选人提供的薪水比大型中国科技公司和AI实验室(例如)等竞争对手高得多。
目前约有150名员工,但他们正在迅速扩大。
历史证明,拥有足够资金的小型初创公司通常可以突破界限。
由于其自身的资金,没有这样的官僚机构可以迅速促进新想法。
但是,在不依赖外部或供应商的情况下构建数据中心的(在大多数情况下)类似。这为进一步的实验提供了更大的空间,以便它们可以在整个技术堆栈上实现创新。
我们认为,它们是当今唯一最好的“开源”实验室,超过了Meta的Llama项目和其他竞争对手。
成本极低被误解
价格和效率引发了硅谷技术圈中地震的关键。
但是,V3的培训成本是一个广泛循环的数字,实际上是一个方面。这仅等同于产品材料清单的一部分,并将其视为全部成本。培训前成本只是总成本的一小部分。
我们认为,预培训的成本远非模型的总成本。
我们认为,硬件的支出超过5亿美元。为了开发新的体系结构创新,在模型开发过程中,他们花了很多资金来测试新的想法,新的体系结构和消融实验。
多头开发的关键创新是开发的时间,花了几个月的时间才能在整个团队中开发大量的人力和GPU计算时间。
本文提到的600万美元的成本仅是指在培训过程中GPU的成本,这只是总模型成本的一部分。不包括重要部分,例如研发成本和硬件本身的总体所有权。
作为参考,3.5培训的费用达到了数千万美元。如果这是总成本,那么他们就不需要筹集数十亿美元并从亚马逊筹集了数十亿美元。因为这是他们进行实验,提出新建筑,收集和清洁数据并支付员工工资的必要费用。
那么,您如何获得如此大的群集呢?出口控制的滞后是关键,我们将在下面详细讨论它。
V3秘密减少性能差距
毫无疑问,V3是一个令人印象深刻的模型,但值得强调与什么相对于什么“令人印象深刻”的模型。
许多人将V3与GPT-4O进行了比较,并强调V3超过4O的性能,但GPT-4O于2024年5月发布。随着当前AI的速度,当时算法的提高,现在非常不同。此外,我们并不感到惊讶的是,在一段时间后,我们可以通过更少的计算资源来实现或更强大的功能。
推理成本的显着下降是AI改善的迹象。
例如,一些可以在笔记本电脑上运行的小型模型可以与GPT-3相提并论,GPT-3需要超级计算机,需要大量的GPU推理。换句话说,算法的改进使具有较少计算资源的模型可以通过相同的性能模型进行训练和推理,并且该模型在行业中已经出现了很多次。
世界终于注意到了这次,因为它来自中国的一个实验室,但是小型模型的性能并不新鲜。
目前,行业的趋势是,AI实验室继续增加其投资绝对资金,以获得更高的智能水平。
据估计,算法效率每年提高4次,也就是说,每年计算用于实现相同性能的资源下降4次。
首席执行官达里奥(Dario)认为,算法进度甚至会更快,并且可以取得10倍的进步。
就GPT-3质量推理价格而言,成本下降了1200次。
在研究GPT-4的成本时,尽管在曲线的早期阶段,我们也看到了类似的下降趋势。可以解释的时间差异可以解释,不再像上图那样保持性能。
在这种情况下,我们看到算法的改进和优化可将成本降低10倍,并且性能增加了10倍。
应当指出的是,独特性是他们在达到这种成本和绩效水平方面取得了领先。
尽管它在开源模型上做了类似的事情,但它是独一无二的。如果到今年年底之前的费用将下降5次,请不要感到惊讶。
R1为什么迅速赶上O1
每个人都热烈讨论的另一个话题是R1可以达到与O1相同的效果,而O1仅在9月发布。
在短短几个月内,您是如何如此迅速地赶上的?
问题的关键是推理能力已经形成了新的范式。
推理范式的迭代速度更快,并且可以通过更少的计算资源获得重大好处。正如我们在法律报告中提到的那样,过去的范式取决于预训练,这种方法不仅越来越高,而且很难稳步进步。
新的推理范式着重于通过现有模型中的生成数据生成和加强学习来提高推理能力,以便以较低的成本取得更快的进步。
较低的入口阈值加简易优化使其能够比过去更快地复制O1方法。当所有各方探索如何在这种新范式下进一步扩展时,我们希望在匹配性能中不同模型之间的时间差距将扩大。
应该注意的是,R1论文没有提及所使用的计算资源。这绝不是偶然的,以生成用于培训后培训的合成数据,R1需要大量计算资源,更不用说加强学习。
R1是一个非常好的模型,但是它披露的一些基准测试也具有误导性。 R1故意没有提到它没有领导的基准测试。尽管R1在推理性能中与O1相当,但在每个指标中,它并不是显而易见的赢家,即使在许多情况下,它甚至不如O1。
在这里,我们还没有提到O3。 O3的能力明显高于R1和O1。实际上,O3的结果最近共享了O3(O3-MINI),其基准测试的扩展是垂直的。
这似乎再次证明了“深度学习相遇的瓶颈”,但过去这种瓶颈有所不同。
与推理的推理模型不可媲美
尽管R1的繁荣不断,但许多人忽略了它。一家2.5万美元的美国公司以较低的价格以较低的价格发布了推理模型:Flash 2.0。
该模型已经可用,即使通过API具有更长的上下文,其成本也远低于R1。
在宣布的基准测试中,Flash 2.0超过R1,尽管基准测试并不能解释整个情况。仅发布了3个基准测试,因此情况并不全面。但是,我们认为该模型非常稳定,并且在许多方面都可以与R1相提并论,但是它并没有得到太多关注。
这可能是由于平庸的营销策略和差的用户体验所致,但与此同时,R1也是来自中国的黑马。
需要清楚的是,这些不会削弱非凡成就的价值。作为一个快速的经营,资助,聪明和专注的创业公司,这就是为什么它超越了推理模型中的元素之类的巨人。
MLA创新,使美国技术圈被疯狂复制
意识到许多领先的AI公司已经达到的许多技术创新。我们预测,接下来发布的任何技术进步将几乎立即被西方实验室复制。
这些技术突破是什么?大多数体系结构上的成就与V3有关,V3也是R1的基本模型。让我们在下面详细介绍这些创新。
培训(培训和培训后培训)
V3使用多型(MTP)实现从未见过的大小。这是一个新添加的注意模块,可预测下一个多个令牌而不是单个令牌。
它在培训期间大大提高了模型性能,可以在推理过程中删除。这是一种算法创新,它使用较低的计算资源来提高性能。
还有一些其他考虑因素,例如在培训中使用FP8精度,但是美国领先的实验室已经培训了一段时间。
V3也是专家的混合模型,即,一个大型模型由许多小型专家组成,专注于不同的任务,显示出强大的出现能力。
MOE模型面临的问题之一是如何确定应分配哪个子模型或“专家”的令牌。可以实现“ GATE - ”(),可以以平衡的方式将其用于合适的专家,而不会影响模型性能。
这意味着路由效率很高。在训练过程中,每个令牌仅需要少量参数来修改整个模型的大小。
这提高了培训效率,还降低了推理的成本。
尽管有些人担心专家混合模型(MOE)带来的效率提高可能会减少投资,但达里奥指出,更强大的AI模型带来的经济利益非常相当大,因此任何储蓄成本都将迅速投资于建立一个较大的结构。尺寸型号。
MOE的效率不仅不能降低整体投资,而且会加速AI的规模。目前,硅谷的主流技术公司都将把模型扩展到更多计算资源并提高算法的效率。
R1 V3背后的基本模型
就R1而言,它从具有强大的基本模型(V3)中受益匪浅,这是由于加强学习(RL)所致。
RL主要关注两个点:格式化(确保输出相干)和有用性和安全性(以确保模型是实用的)。
当模型良好时会产生推理能力。正如我们在《扩展法》文章中提到的那样,这是O1的过程。
应当指出的是,R1论文中未提及计算资源的使用,因为所使用的计算资源数量将表明他们拥有的GPU数量远远超过了外国宣传的规模。
如此大的增强学习需要大量计算资源,尤其是生成合成数据的场景。
此外,所使用的数据的一部分似乎来自模型(未确认),我们认为这将影响输出蒸馏的政策。根据服务条款这是非法的,但是将来,新趋势可能采用类似于KYC(了解客户)的方式来防止数据蒸馏。
当涉及蒸馏时,R1纸中最值得注意的部分是通过使用推理模型的输出将其转换为具有推理能力的模型,以罚款非插入小型模型。
数据集计划包含800,000个样本。现在,任何人都可以使用R1的思维链(COT)输出来创建自己的数据集,并使用这些输出来构建推理模型。
我们可能会看到更多的小型模型来显示它们的推理能力,从而提高了小型模型的性能。
潜在的关注(MLA)
正如我们前面提到的,潜在的关注(MLA)是一项关键创新,大大降低了推理成本。
因为与标准注意机制相比,MLA将每个查询所需的KV缓存降低了约93.3%。 KV缓存是模型中的一种存储机制,用于从代表之间的对话中暂时保留数据,从而减少重复计算。
随着对话环境的增加,KV缓存将增加,这将带来巨大的记忆压力。因此,每次所需的KV缓存大大降低可以减少每个查询所需的硬件量,从而降低整体成本。
但是,我们认为,它提供了合理的服务,以抓住市场份额,而不是真正的盈利。
Flash 2.0仍然更便宜,并且不太可能以成本价格提供服务。 MLA特别引起了许多美国领先的实验室的注意。
MLA于2024年5月在V2上首次发布。由于H20的存储器带宽和容量高于H100,因此在推理推理的推理工作量中也获得了更大的提高。他们还宣布了与华为的合作关系,但到目前为止,计算中几乎没有应用。
(昨天,基于硅的Flow和华为云团队宣布了联合发布,并根据 服务启动了/V3推理服务。)
我们认为,MLA对利润率的影响对整个AI生态系统具有重要意义。
R1不会削弱技术水平上的O1的优势
在利润率方面,我们有一个钥匙可以发现R1不会削弱O1的技术优势,而是提供了类似的能力,其成本较低。
这个结果是合理和开明的,这促使我们建立了面向未来的定价机制框架。能力越强,利润率越高,这种逻辑与半导体制造业的发展路径非常相似。
当TSMC首次闯入新的流程节点并推出了前所未有的产品时,他可以获得强大的定价能力。三星和英特尔等技术捕捞阶段的竞争对手更多地依靠成本和绩效来寻求平衡,通常以低于市场领导者的价格竞争。
对于芯片制造商(类比是这里的AI实验室),其优势是它可以灵活地调整生产能力。如果新模式具有更好的成本和收益,企业可以快速提高其能力,并逐渐减少对旧型号的支持。
这种容量调整机制不仅符合当前AI实验室的操作模型,而且还符合半导体行业的长期经验。
技术的竞争是定价电力竞赛
这可能表明未来AI竞争的发展轨迹。
领导进入新容量水平的企业将具有明显的定价溢价,而追随者只能依靠微薄的利润来维持。
那些能够满足特定的使用情况的能力落后的产品将仍然存在,但是越来越少的参与者可以赶上每一代人的领导者,将变得越来越少。
我们目睹了R1达到领先能力水平,但以零利润的价格出售。
这种独特的价格差异引起人们的疑问:哪种产品如此昂贵?因为他们的产品定价基于前沿技术,并获得了相应的溢价收入。
我们认为,未来的技术发展速度将超过当前半导体制造的快速节奏。
对最新功能的追求意味着连续定价权利 - 获取Pro的一个例子,并且具有滞后能力的产品必须通过降低价格来维持市场。利润主要取决于基础计算能力和令牌基础架构。
在当前的快速迭代技术周期中,追求卓越的推动力只会加速产品的更新。只要公司可以继续扩展能力并发展新的价值功能,他们就应该享有定价能力。相反,在公开市场中,产品的同质性趋势将迅速出现。
在这种情况下,人们对当前情况有根本的误解。我们描述的场景与具有超高速发展的半导体制造业有点相似 - 这是世界上资本密度最高的行业。在研发中,没有哪个行业比半导体制造业投资更多,但是最接近此现实的AI模型供应链通常被视为不利的参考对象。
将AI令牌与Jevez的悖论进行比较,我们可以找到深刻的历史相似之处。
最初,人们对晶体管是否可以继续略微减少感到怀疑。一旦确认了这一趋势,整个行业就全力以赴,以促进CMOS技术的限制,并在此基础上建立关键功能。
今天,我们正处于整合多链思维模型和能力的早期阶段,这与晶体管缩小的早期时代非常相似。尽管从技术角度来看,这可能是动荡的时期,但这对来说是个好消息。
自由和强大的推理模型可以继续继续吗
实际上,市场一直在寻找一个新的突破点,这正是它所选择的。
如果您愿意以0甚至负利润率运营,则其产品的价格确实可以降低到该程度上。
但是,切割边缘令牌服务的定价弹性显然要高得多。鉴于他们正在一轮融资中,因此他们有强大的动力来追求这一策略。
在推理领域的关键转折点上,主导地位的利润率被打破了。这个领先的位置可以继续吗?
我们认为不是 - 一切后,开源实验室现在已经表明能够仅被视为属于封闭的源实验室的能力。尽管这是一个关键的发展,但我们必须意识到它仍然是一个快速的追随者。
我们确实认为,更强大的开放实验室(目前是最杰出的代表)将极大地使新兴的云服务提供商和基础设施供应商受益。
无论该模型是开放还是关闭的,计算资源的集中化仍然至关重要。但是,如果基于这些计算资源的上层服务开始免费提供产品,则计算其自身固有的价值可能会上升。
更多的资本将流向计算基础架构,而不是封闭的模型供应商,这标志着支出硬件的前进。软件公司还将从这种动态中受益匪浅。
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论