在介绍 GPT-5 之前,我们必须先拜访一下它的远亲,同样失踪的 Opus 3.5。
大家知道,海外三大人工智能实验室中、中提供一系列涵盖各个价位段、时延、性能区间的大模型服务。提供GPT-4o、GPT-4o mini、o1和o1-mini;提供Ultra、Pro、Flash;提供Opus和俳句。
他们的目标很明确:迎合尽可能多的客户。有些人优先考虑最佳性能,而另一些人则寻求负担得起的、足够好的解决方案,到目前为止,效果还不错。
但 2024 年 10 月发生了一些奇怪的事情。大家都在期待 Opus 3.5 的发布,以响应 GPT-4o(于 2024 年 5 月推出)。然而,10 月 22 日,他们发布了更新版本 3.5(人们开始称其为 3.6)。 Opus 3.5 缺失,并且似乎没有 GPT-4o 的直接竞争对手。这里的研究进展似乎有问题。以下是人们的评价以及 Opus 3.5 的实际情况:
总之,Opus 3.5 大模型确实训练完成了。他们放弃了这个名字,因为它不够好。达里奥认为,不同的训练尝试可以改善结果,因此避免给出发布日期。彭博社证实,结果优于现有模型,但不足以证明推理成本合理。 Dylan 和他的团队发现了神秘的 3.6 和失踪的 Opus 3.5 之间的联系:后者在内部用于生成合成数据,以提高前者的性能。
2. 更好的型号变得更小、更便宜?
使用强大而昂贵的模型生成的数据来提高稍弱但更便宜的模型的性能的过程称为蒸馏。这是一种常见的做法。这项技术使人工智能实验室能够将其小型模型改进到仅通过额外的预训练无法实现的水平。
蒸馏的方法有很多种,但我们不会深入讨论。你需要记住的是,作为“老师”的强大模型将“学生”模型从[小,便宜,快]+弱变为[小,便宜,快]+强大。蒸馏将强大的模型变成金矿。 Dylan 解释了为什么对 Opus 3.5-3.6 模型对这样做是有意义的:
推理成本(新与旧)没有显着变化,但模型性能有所提高。为什么要发布 3.5 Opus?从成本角度来看,与发布在 3.5 Opus 上进一步训练的 3.5 相比,这在经济上并不合理。
我们回到成本问题:蒸馏可以提高性能,同时保持推理成本低廉。这立即解决了彭博社报道的主要问题。选择不发布 Opus 3.5 不仅仅是因为性能不佳,而是因为它在内部更有价值。 (Dylan 说,这就是开源社区如此迅速地赶上 GPT-4 的原因——他们直接从金矿获得了黄金。)
最令人惊讶的发现是 3.6 不仅好 - 它是 SOTA 级别并且比 GPT-4o 更好。由于从 Opus 3.5 的提炼(可能还有其他原因,五个月对于 AI 时间来说是很长的时间),Opus 的中端型号超越了 Opus 的旗舰型号。突然间,高成本作为高性能的代表被证明是错误的。
“是”怎么了?首席执行官山姆警告说,这个时代已经结束。一旦顶级实验室变得神秘起来,小心翼翼地保护他们宝贵的知识,他们就会停止分享数据。参数数量不再是一个可靠的指标,我们明智地将注意力转向基准性能。最后一次官方披露的模型规模是 2020 年的 GPT-3,拥有 1750 亿个参数。到 2023 年 6 月,有传言称 GPT-4 是一个专家混合模型,总共约有 1.8 万亿个参数。后来在详细评估中证实了这一点,得出 GPT-4 拥有 1.76 万亿个参数的结论。这是 2023 年 7 月。
截至 2024 年 12 月,即一年半后,专注于人工智能未来影响的组织的研究员 Ege Erdil 在文章中估计“有很多”领先的人工智能模型(包括 GPT-4o 和 3.6) GPT-4 会小得多(尽管在基准测试中都优于 GPT-4):
…当前的尖端模型,如 GPT-4o 和 3.5,参数数量可能比 GPT-4 少一个数量级:4o 有大约 2000 亿个参数,3.5 有大约 4000 亿个参数……考虑到我得出这个数字的粗略方式,这些估计值可能存在 2 倍误差。
他如何在不发布实验室任何建筑细节的情况下得出这些值?他深入解释了原因。但这个理由对我们来说并不重要。重要的是迷雾正在消散:两者似乎都遵循着相似的轨迹。他们的最新型号不仅比上一代更好,而且更小、更便宜。我们知道 Opus 3.5 被提炼成 3.6。但如何呢?
3. AI实验室背后的驱动力是普遍的
人们可能会认为蒸馏方法源于其自身独特的情况——即 Opus 3.5 训练的令人失望的结果。但事实上,情况绝非特例。和也报告说,他们最近一次训练的结果并不理想。 (需要强调的是,次优并不意味着模型更差。)对我们来说,造成这种情况的原因并不重要:数据不足导致的收益递减、架构的固有局限性、预训练法停滞等无论如何,这种独特的情况其实是相当普遍的。
但还记得彭博社的报道:只有将成本放在一起才能判断绩效指标吗?是的,Ege Erdil 解释了原因:/GPT-4 热潮之后,对 AI 的需求激增。
生成式人工智能的传播速度如此之快,以至于实验室难以跟上,导致损失不断增加。这种情况促使他们都降低推理成本(训练只进行一次,但推理成本随着用户数量和使用情况成比例增长)。如果每周有 3 亿人使用你的人工智能产品,运营费用可能会突然杀死你。
不管从 Opus 3.5 中提炼出 3.6 的原因是什么,它给我带来了数倍的压力。蒸馏很有用,因为它将两个常见的困难转化为优势:它通过向用户提供较小的模型来解决推理成本,同时还避免了不发布较大模型时性能不佳的问题。并受到公众的严厉批评。
Ege Erdil 认为可能会选择另一种方法:过度训练()。也就是说,使用比计算最佳 (-) 更多的数据来训练小型模型:“当推理成为模型支出的主要或主导部分时,最好......在更多标记上训练较小的模型。 ”小模型。”但过度训练已不再可行。人工智能实验室已经用尽了用于预训练的高质量数据源。埃隆·马斯克和伊利亚最近几周都承认了这一点。
回到蒸馏,Ege Erdil 总结道:“我认为 GPT-4o 和 3.5 可能都是从更大的模型中蒸馏出来的。”
迄今为止的所有证据都表明,以相同的方式(蒸馏)和出于相同的原因(性能/成本控制不佳)对 Opus 3.5 进行了操作(训练和隐藏)。这是一个重要的发现。但是等等,Opus 3.5 仍然隐藏着。哪里有类似的型号?是不是藏在公司的地下室?你能猜出它的名字吗...?
4、要深入人迹罕至的地方,必须自己开辟路
我的分析从 Opus 3.5 的故事开始,因为有很多关于它的信息。然后,我使用蒸馏的概念搭建一座桥梁,并解释为什么推动的潜在力量也会推动。然而,我们的理论中出现了一个新的障碍:因为他们是先驱,他们可能面临竞争对手尚未遇到的障碍。
最大的障碍之一是训练 GPT-5 的硬件要求。 3.6 与 GPT-4o 相当,但发布晚了五个月。我们应该假设 GPT-5 处于另一个层面。更强大、更大。推理成本和培训成本也更高。仅举办一次培训课程就可能花费 5 亿美元。用现有的硬件可以完成这样的事情吗?
埃格的回答是肯定的。服务 3 亿人是巨大的,但培训却是小菜一碟:
“理论上,即使我们现有的硬件也足以支持比 GPT-4 大得多的模型:例如,放大 50 倍的 GPT-4,大约有 100 万亿个参数,每百万输出代币的成本可能为 3000 美元,输出速度为每秒 10-20 个令牌。然而,要实现这一目标,这些大型模型必须为使用它们的客户带来大量经济价值。”
然而,即使是微软、谷歌和亚马逊(分别是 、 和 的投资者)也无法证明这种推理的成本是合理的。那么他们是如何解决这个问题的呢?很简单:只有当他们计划向公众提供具有数万亿个参数的模型时,他们才需要“释放巨大的经济价值”。所以他们选择不发布这些模型。
他们训练它。他们意识到它“比他们当前的产品性能更好”。但他们必须承认,它“还没有进步到足以证明维持其运行的巨额成本是合理的”。 (听起来很熟悉?这是华尔街日报一个月前关于GPT-5的报道,与彭博社关于Opus 3.5的言论惊人相似)。
他们报告的结果不是很好(或多或少准确,他们总是可以在这里玩弄叙述)。他们将其保留在内部作为大型教师模型,以提取较小的学生模型。然后他们发布了这些较小的模型。我们得到了 3.6 和 GPT-4o 以及 o1,很高兴它们便宜而且非常好。即使我们变得越来越不耐烦,我们对 Opus 3.5 和 GPT-5 的期望仍然没有改变。他们的口袋继续像金矿一样闪闪发光。
5.微软和AGI
当我调查到这里时,我仍然不太相信。当然,所有证据都表明这对两人来说是完全合理的,但合理的——甚至可能的——和真实的之间存在差距。我不会为你填补这个空白——毕竟,这只是猜测。但我可以进一步强化这个论点。
有任何其他证据表明这有效吗?除了性能不佳和损失增加之外,他们还有什么理由扣留 GPT-5 呢?从高管关于 GPT-5 的公开声明中我们可以推断出什么?他们一再推迟模型发布不是拿自己的声誉冒险吗?毕竟,它是人工智能革命的面孔,但却在其阴影下运作。可以承担这些举措,但是什么呢?也许这并不是没有代价的。
说到金钱,让我们来挖掘一下有关微软合作伙伴关系的一些相关细节。第一个是众所周知的:AGI 条款。在一篇关于其结构的博客文章中,他们有五个治理术语,描述了他们的运作方式、他们与非营利组织的关系、他们与董事会的关系以及他们与微软的关系。第5条将AGI定义为“在最具经济价值的任务中超越人类的高度自治系统”,并规定一旦董事会声称已经实现AGI,“此类系统将被排除在与微软的IP许可和其他商业协议之外。”条款,这些条款仅适用于 AGI 之前的技术。”
不用说,两家公司都不希望这种合作关系破裂。设定本条款,但会采取一切必要措施避免遵守该条款。一种方法是延迟发布可能被标记为 AGI 的系统。 “但 GPT-5 绝对不是 AGI,”你会说。而我要说的是第二个几乎无人知晓的事实:微软和微软对AGI有一个秘密的定义:AGI是一个“可以产生至少1000亿美元利润的人工智能系统”。这个定义与科学目的无关。 ,但以法律术语界定了他们的合作伙伴关系。
如果他们以“尚未准备好”为借口扣留 GPT-5,那么除了控制成本和防止公众强烈反对之外,他们还会做另一件事:他们会回避宣布它是否符合被归类为 GPT-5 的要求。通用人工智能。临界点。虽然 1000 亿美元的利润是一个非凡的数字,但没有什么能阻止雄心勃勃的客户在此基础上创造更多利润。另一方面,我们要明确一点:如果 GPT-5 预计每年带来 1000 亿美元的经常性收入,他们不会介意触发 AGI 条款并与微软分道扬镳。
大多数公众对不发布 GPT-5 的反应都是基于这样的假设:他们不这样做是因为它不够好。即使这是真的,怀疑论者也不会停下来思考,可能存在比从外部获得的更好的内部用例。创建一个伟大的模型和创建一个可以廉价地为 3 亿人服务的伟大模型之间存在巨大差异。如果你做不到,你就不做。但话又说回来,如果你没有必要,你就不会这样做。他们之前让我们访问他们最好的模型,因为他们需要我们的数据。现在没那么需要了。他们也不追求我们的钱。想要钱的是微软,而不是他们。他们想要 AGI,然后是 ASI。他们想要遗产。
6.从山洞传授智慧的老隐士
文章即将结束。我相信我已经提出了足够的论据来构建一个可靠的案例:内部运行 GPT-5 的可能性与 Opus 3.5 的可能性一样。 GPT-5 也有可能永远不会发布。现在公众将性能与 o1/o3 进行比较,而不仅仅是 GPT-4o 或 3.6。随着测试规律的探索,GPT-5需要跨越的门槛不断提高。他们如何才能发布真正超越 o1、o3 和即将推出的 o 系列型号的 GPT-5,特别是考虑到他们生产这些型号的速度?此外,他们不再需要我们的金钱或数据。
训练新的基础模型——GPT-5、GPT-6 及更高版本——在内部总是有意义的,但不一定作为产品。这可能就结束了。现在对他们来说唯一重要的目标是继续为下一代模型生成更好的数据。从现在开始,基础模型可能会在后台运行,允许其他模型完成它们自己无法完成的壮举——就像一个老隐士从秘密洞穴中传授智慧一样,只不过这个洞穴是一个巨大的数据中心。无论我们是否见到他,我们都会经历他智慧的后果。
即使 GPT-5 最终发布,这个事实突然看起来几乎无关紧要。如果确实启动了递归自我改进行动(尽管仍然有人参与),那么它们向我们展示什么并不重要。它们将移动得越来越远——就像宇宙膨胀得如此之快,以至于来自遥远星系的光再也无法到达我们身上一样。
也许这就是他们如何在短短三个月内从o1跳到o3,以及他们将如何跳到o4和o5。这可能就是他们最近在社交媒体上如此兴奋的原因。因为他们实施了新的、改进的运营模式。
你真的认为越接近AGI就意味着你总是可以使用越来越强大的AI吗?他们会公布每一个进展供我们使用吗?当然,你不会相信这一点。当他们说他们的模型将使他们远远领先于任何人以至于他们无法赶上时,他们是认真的。每一代新模型都是逃逸速度的引擎。从平流层开始,他们已经在向我们挥手告别了。
他们是否会回来还有待观察。
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论