在短短几个月内,最新的评估表明,O3推理的成本飙升了10倍,比初始估计值飙升了10倍!
在最新的Arc-Agi测试中,AI曾经在一项任务上花费了3,000美元,但现在已经飙升至30,000美元。
牛津大学的一位高级研究员托比·奥德(Toby Ord)指出,O3-High似乎很强大,但实际上,它比实际的推理突破更依赖大规模的计算。
每项任务的O3高度尝试1024次,每次产生137页的文本,总计4,300万个单词 - 相当于为每个任务编写一个英国百科全书(4400万个单词)。
结果,完成每个任务的成本高达30,000美元。这些简单的难题只能在短短4分钟内为10岁的孩子解决。
成本激增直接导致O3高的ARC-AGI限额每次任务10,000美元,并直接排除在排名列表中。
即使是O3高的计算功耗也是O3-low的172倍。
这种“暴力反复试验和错误”方法使人们问题:这真的是一个聪明的解决问题吗?
从惊人到令人恐惧,O3的成本飙升了10次
去年12月,推断O3推出了推断。
为了展示O3的强大表现,他们邀请了ARC主席Greg参加了新闻发布会。
就在上周,ARC奖更新了他们对O3型号成本的估计,结果令人震惊。
最初,他们估计解决O3-Low的ARC-AGI任务的成本为20美元,O3高的成本为3,000美元。
现在,根据经过修订的Arc-Agi表,这些数字分别增加到200美元和30,000美元。
这比他们的预期成本高10倍,这可能是为什么O3长期未正式发布的原因。
费用真的太高了。
作为回应,ARC奖的联合创始人之一Mike Knoop说:“我们认为O1-Pro更接近O3的实际成本,因为它在测试过程中使用了大量计算资源。”
O3的原始估计仅是当前O1-PRO模型电荷的1/10,因此他们以O1-Pro定价更新了定价数据作为参考。
“但这只是一个参考。我们将O3标记为排名的预览,以反映官方定价的不确定性。”
研究人员托比·奥德(Toby Ord)表示,更新的图表表明,O3的整体性能几乎没有超过O1中的登录趋势。
他推测这可能是因为O3经过了75%的ARC-AGI公共测试集经过专门培训,并且没有释放任何消融数据来阐明这一收益的来源。
相比之下,O3米尼更具引人注目的方式。所使用的计算资源比O3高的贵倍,但它们可以显示出真正的突破趋势。
有传言说它打算为企业客户启动昂贵的会员计划。
有些人可能会认为,即使是如此高的会员费也比雇用员工便宜。
但是,当一项任务需要3万美元或4,300万个单词来解决它时,这种效率真的很具成本效益吗?
Arc-Agi一直保持不败五年,它使AI陷入困境
当谈到Arc-Agi时,它最初只是Keras的父亲François在上的一个辅助工作项目,但现在它已成为所有AI的必备问题。
ARC奖是一个非营利组织,其任务是在基准测试期间成为AGI的北极星。
他们的第一个基准Arc-agi是François在2019年有关情报测量的论文中发表的,在AI领域,它一直保持不败五年。
随着模型变得更强大,上个月,他们更新了Arc-Agi-2。
与Arc-Agi-1不同,这种新版本并不容易用蛮力破裂。对于AI来说,这是非常困难的。
有多困难?
顶级基本模型,例如GPT-4.5、3.7、2等。都得分为0%。换句话说,即使完成了,也无法解决。
推理模型并不好很多,-R1和O3-Mini的得分仅为0-1%。
为什么会发生这种情况?
原因是Arc-Agi-2的所有任务都需要一些认真的思考。
换句话说,在解决这些任务时,推理模型需要大量的推理并消耗大量令牌。
例如,当需要将符号视为“有意义的内容”的需要时,目前最先进的推理模型的性能很差。
他们将尝试检查对称性,镜像,执行图形转换,甚至确定符号之间的连接关系,但他们无法理解这些符号本身的含义。
符号解释:ARC-AGI-2公共评估任务#
在需要同时使用多个规则的任务中,也很难执行,或者这些规则相互影响。
相比之下,如果任务仅涉及一个或很少的整体规则,则AI通常可以发现并正确应用它们。
组合推理:ARC-AGI-2公共评估任务#
当面对需要根据特定情况下灵活应用规则的任务时,这些推论模型的表现也很差。
他们倾向于只关注表面模式,而不是理解其背后的真实选择原理。
上下文规则应用:ARC-AGI-2公共评估任务#
AGI可能会在几年内出现
尽管这些在ARC-AGI测试中表现不佳的顶级推断模型并没有阻碍许多人对实施AGI的想象。
在最新博客中,这意味着“通用人工智能(AGI)可能会在未来几年到达。”
结合AI代理的功能,AGI可以大大提高AI在理解,推理,计划和自主执行行动方面的能力。这种技术进步将为社会提供有价值的工具,以应对全球关键挑战,包括药物发现,经济增长和气候变化。
这也意味着我们可以期望数十亿人从中获得切实的收益。例如:
现在,O3的成本飙升了10次,明智的界限似乎比我们想象的要远。
AGI的曙光可能会在未来几年内到来,但是目前,燃钱的情报并不代表推理的真正突破,我们仍然需要保持清醒并期待它。
参考:
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论