o3推理成本暴涨10倍!AI单次任务成本飙升至3万美元,远超ARC-AGI限制

进不了网站?换个网络试试!

在短短几个月内,最新的评估表明,O3推理的成本飙升了10倍,比初始估计值飙升了10倍!

在最新的Arc-Agi测试中,AI曾经在一项任务上花费了3,000美元,但现在已经飙升至30,000美元。

牛津大学的一位高级研究员托比·奥德(Toby Ord)指出,O3-High似乎很强大,但实际上,它比实际的推理突破更依赖大规模的计算。

o3推理成本暴涨10倍!AI单次任务成本飙升至3万美元,远超ARC-AGI限制插图

每项任务的O3高度尝试1024次,每次产生137页的文本,总计4,300万个单词 - 相当于为每个任务编写一个英国百科全书(4400万个单词)。

结果,完成每个任务的成本高达30,000美元。这些简单的难题只能在短短4分钟内为10岁的孩子解决。

o3推理成本暴涨10倍!AI单次任务成本飙升至3万美元,远超ARC-AGI限制插图1

成本激增直接导致O3高的ARC-AGI限额每次任务10,000美元,并直接排除在排名列表中。

即使是O3高的计算功耗也是O3-low的172倍。

这种“暴力反复试验和错误”方法使人们问题:这真的是一个聪明的解决问题吗?

从惊人到令人恐惧,O3的成本飙升了10次

去年12月,推断O3推出了推断。

为了展示O3的强大表现,他们邀请了ARC主席Greg参加了新闻发布会。

就在上周,ARC奖更新了他们对O3型号成本的估计,结果令人震惊。

最初,他们估计解决O3-Low的ARC-AGI任务的成本为20美元,O3高的成本为3,000美元。

现在,根据经过修订的Arc-Agi表,这些数字分别增加到200美元和30,000美元。

这比他们的预期成本高10倍,这可能是为什么O3长期未正式发布的原因。

费用真的太高了。

o3推理成本暴涨10倍!AI单次任务成本飙升至3万美元,远超ARC-AGI限制插图2

作为回应,ARC奖的联合创始人之一Mike Knoop说:“我们认为O1-Pro更接近O3的实际成本,因为它在测试过程中使用了大量计算资源。”

O3的原始估计仅是当前O1-PRO模型电荷的1/10,因此他们以O1-Pro定价更新了定价数据作为参考。

o3推理成本暴涨10倍!AI单次任务成本飙升至3万美元,远超ARC-AGI限制插图3

“但这只是一个参考。我们将O3标记为排名的预览,以反映官方定价的不确定性。”

研究人员托比·奥德(Toby Ord)表示,更新的图表表明,O3的整体性能几乎没有超过O1中的登录趋势。

他推测这可能是因为O3经过了75%的ARC-AGI公共测试集经过专门培训,并且没有释放任何消融数据来阐明这一收益的来源。

相比之下,O3米尼更具引人注目的方式。所使用的计算资源比O3高的贵倍,但它们可以显示出真正的突破趋势。

o3推理成本暴涨10倍!AI单次任务成本飙升至3万美元,远超ARC-AGI限制插图4

有传言说它打算为企业客户启动昂贵的会员计划。

有些人可能会认为,即使是如此高的会员费也比雇用员工便宜。

但是,当一项任务需要3万美元或4,300万个单词来解决它时,这种效率真的很具成本效益吗?

o3推理成本暴涨10倍!AI单次任务成本飙升至3万美元,远超ARC-AGI限制插图5

Arc-Agi一直保持不败五年,它使AI陷入困境

当谈到Arc-Agi时,它最初只是Keras的父亲François在上的一个辅助工作项目,但现在它已成为所有AI的必备问题。

ARC奖是一个非营利组织,其任务是在基准测试期间成为AGI的北极星。

他们的第一个基准Arc-agi是François在2019年有关情报测量的论文中发表的,在AI领域,它一直保持不败五年。

o3推理成本暴涨10倍!AI单次任务成本飙升至3万美元,远超ARC-AGI限制插图6

随着模型变得更强大,上个月,他们更新了Arc-Agi-2。

o3推理成本暴涨10倍!AI单次任务成本飙升至3万美元,远超ARC-AGI限制插图7

与Arc-Agi-1不同,这种新版本并不容易用蛮力破裂。对于AI来说,这是非常困难的。

有多困难?

顶级基本模型,例如GPT-4.5、3.7、2等。都得分为0%。换句话说,即使完成了,也无法解决。

推理模型并不好很多,-R1和O3-Mini的得分仅为0-1%。

为什么会发生这种情况?

原因是Arc-Agi-2的所有任务都需要一些认真的思考。

换句话说,在解决这些任务时,推理模型需要大量的推理并消耗大量令牌。

例如,当需要将符号视为“有意义的内容”的需要时,目前最先进的推理模型的性能很差。

他们将尝试检查对称性,镜像,执行图形转换,甚至确定符号之间的连接关系,但他们无法理解这些符号本身的含义。

o3推理成本暴涨10倍!AI单次任务成本飙升至3万美元,远超ARC-AGI限制插图8

符号解释:ARC-AGI-2公共评估任务#

在需要同时使用多个规则的任务中,也很难执行,或者这些规则相互影响。

相比之下,如果任务仅涉及一个或很少的整体规则,则AI通常可以发现并正确应用它们。

o3推理成本暴涨10倍!AI单次任务成本飙升至3万美元,远超ARC-AGI限制插图9

组合推理:ARC-AGI-2公共评估任务#

当面对需要根据特定情况下灵活应用规则的任务时,这些推论模型的表现也很差。

他们倾向于只关注表面模式,而不是理解其背后的真实选择原理。

o3推理成本暴涨10倍!AI单次任务成本飙升至3万美元,远超ARC-AGI限制插图10

上下文规则应用:ARC-AGI-2公共评估任务#

AGI可能会在几年内出现

尽管这些在ARC-AGI测试中表现不佳的顶级推断模型并没有阻碍许多人对实施AGI的想象。

在最新博客中,这意味着“通用人工智能(AGI)可能会在未来几年到达。”

o3推理成本暴涨10倍!AI单次任务成本飙升至3万美元,远超ARC-AGI限制插图11

结合AI代理的功能,AGI可以大大提高AI在理解,推理,计划和自主执行行动方面的能力。这种技术进步将为社会提供有价值的工具,以应对全球关键挑战,包括药物发现,经济增长和气候变化。

这也意味着我们可以期望数十亿人从中获得切实的收益。例如:

现在,O3的成本飙升了10次,明智的界限似乎比我们想象的要远。

AGI的曙光可能会在未来几年内到来,但是目前,燃钱的情报并不代表推理的真正突破,我们仍然需要保持清醒并期待它。

参考:

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论