今年9月,推理模型o1采用了“推理时间计算”(test-time)技术,使得模型在实际使用中能够进行更复杂的推理和决策。业界逐渐转向通过改进推理技术来提高人工智能性能。这种趋势的变化将会给未来的AI芯片和基础设施需求带来变化。拒绝对此事发表评论。
1、规模扩张阶段已过,SSI等正在探索新的扩张方式。
过去几年,科技公司通过增加数据量和计算能力来“扩展”大型语言模型(LLM),以获得更好的AI性能。然而,这种“越大越好”的理念在实际应用中遇到了瓶颈和挑战。谭说,2010年代是AI“扩展”的时代,但随着预训练阶段的模型性能逐渐停滞,行业正在重新进入“发现和探索”的新阶段。
提到的“预训练”阶段是指使用大量未标记的数据来训练AI模型,使其能够理解语言模式和结构。他表示,现阶段的性能增长已经趋于平稳,这意味着仅靠增加计算能力和数据量已经不足以推动重大突破。 SSI正在探索新的扩张方式,以摆脱传统规模扩张的限制。
最近推出的o1模型采用了“推理时间计算”技术。与传统的预训练不同,推理时间计算是模型实际使用时(即“推理”阶段)所做的改进。当模型面临复杂的任务时,例如数学运算或编程问题,它可以实时生成和评估多个解决方案路径,以选择最佳解决方案。这个过程更接近人类的多步思维。
研究员 Noam Brown 在 TEDAI 会议上表示,o1 模型的这种方法非常高效:只需要 20 秒的推理时间就能提升模型性能,效果相当于将模型扩展 10 万倍,训练时间更长。通过这项技术,o1模型在特定任务上表现良好,尤其是在需要复杂决策的场景中。
o1 模型还根据专家数据和反馈进行了额外的训练。与单纯依靠数据量的扩展相比,该方法更注重模型的精细化训练,使其更接近人类推理。此外,据称有计划将该方法应用于更大的基础模型。
2、“推理时间计算”技术应对高成本和资源限制
据知情人士透露,主要人工智能实验室的研究人员在竞相发布超越 GPT-4 模型的大型语言模型时遇到了延误和令人失望的结果。大型模型的“训练运行”成本高昂,往往需要数千万美元和海量的计算芯片资源。此外,由于系统的复杂性,这些训练运行更容易出现硬件故障。此外,模型的最终性能往往需要几个月的训练才能评估,这个过程对硬件和能源的要求极高。
另一个问题是训练大型语言模型会消耗大量数据,而AI模型已经耗尽了所有容易访问的数据资源。电力短缺也阻碍了训练行动,因为整个训练过程需要大量能源。
为了克服这些挑战,研究人员正在探索推理时计算技术,这些技术可以减少对昂贵数据和计算资源的需求,并提高模型在实际应用中的灵活性。
与此同时,据知情人士透露,谷歌、美国AI大模型独角兽、马斯克的大模型独角兽xAI等其他主要AI实验室的研究人员也在开发类似的技术来处理训练过程。延误和次优结果。谷歌和 xAI 没有回应置评请求,也没有立即置评。
3、硬件需求从训练芯片转向推理芯片
人工智能模型推理阶段的优化可能会改变人工智能硬件的竞争格局。红杉资本的著名风险投资家正在注意到这一转变并权衡其影响。红杉资本已投入数十亿美元资助 xAI 和 xAI 等多个人工智能实验室昂贵的人工智能模型开发。他们昂贵的赌注的影响。
红杉资本合伙人索尼娅·黄表示,由于推理时间计算技术的应用需求增加,未来的AI行业可能会更加关注“推理云”,而不是传统的“训练集群”。
传统的训练过程对英伟达的高端AI芯片提出了巨大的需求,这使得英伟达的公司估值迅速增长,并在10月份一度超越苹果。然而,与之前占据主导地位的训练芯片不同,芯片巨头英伟达可能在推理市场面临更多竞争。
当被问及对其产品需求可能产生的影响时,英伟达创始人兼首席执行官黄仁勋表示,随着对推理技术的需求增加,该公司也在增加新一代芯片的推理应用能力,以应对此类需求。增加。
结论:行业正在向精细化、推理优化方向发展。
推出的o1模型采用“推理时间计算”技术,使AI系统能够在“推理”阶段进行多步思考,从而更加接近人类的决策方法。这标志着AI行业的发展从单纯追求模型规模扩张转向更加精细化和推理优化。
对于行业来说,这种变化不仅会影响模型的设计和开发,还将重塑AI硬件和基础设施的需求结构。未来,AI公司可能会更加注重推理阶段的性能提升,转向“推理云”的分布式计算架构。这意味着等芯片供应商也需要适应市场需求的变化,加强芯片推理应用能力的研发。
本站候鸟号已成立2年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论