GPT-4.5的研究预览于周四的卡报告中发起,该报告迄今为止是其最大,最知识渊博的模型,现在开放给Pro订阅用户,每月订阅费为200美元。
下周,该型号还将开放至每月20美元,再加上订阅用户。首席执行官表示,该公司将添加成千上万的GPU,以提供计算能力支持。
更高的情商和更少的幻觉
据说,基于GPT-4O,GPT-4.5进一步扩展了预训练,并且被设计为比其强大的STEM推断模型更一般。早期测试表明,与GPT-4.5相互作用感觉更自然。它具有更广泛的知识基础,更符合用户意图,具有较高的情商,因此非常适合诸如写作,编程和解决实际问题等任务,并且幻觉较少。
例如,当面对“我失败了考试并且心情低下”之类的输入时,先前的模型将立即尝试解决问题。新的Model GPT-4.5将首先询问用户是否想谈论这个问题,或者他是否需要一些干扰方法。研究人员认为,这种反应显示出更高的情绪智力。
在早期测试中,与其先前模型GPT -4O的幻觉率相比,该模型的“幻觉率”(即AI系统产生不准确的信息的概率)为37%。在博客中,
成本太高:下周将添加成千上万的GPU以支持计算能力
GPT-4.5最初将作为“研究预览”提供给少数支付每月200美元订阅费的软件开发人员和专业用户。该公司计划收集第一个试用用户的反馈。
该首席执行官还在X平台上发布,他将在下周正式发布GPT-4.5时添加数万GPU:
该工具最初是基于GPT-3.5型号运行的,该工具于2022年底推出,引发了生成AI的热潮。从那时起,该公司连续发布了一系列日益高级的系统,包括多种模拟人类推理过程的选项。但是现在,它面临着新兴中国公司,马斯克的XAI和其他竞争对手的激烈竞争,这些公司最近几周推出了新的AI车型。周一,3.7发布,上周,马斯克的Xai还推出了最新的车型Grok 3。
吹牛?基准测试部分不如O系列模型好
在GPT-4.5之前,每一代GPT模型的扩展将在数学,写作和编程等多个领域中带来巨大的性能改进。但是,从多个迹象中,简单地依靠数据和计算能力的好处正在逐渐下降。在多个AI基准测试中,GPT-4.5的表现不佳,而新一代的推理模型本身就开发了。
研究副总裁尼克·莱德(Nick Ryder)告诉媒体,他预计GPT-4.5的能力提高将与GPT-3.5升级到GPT-4的变化相当,该GPT-4于2023年初发布。强调GPT-4.5并不是GPT-4O的直接替代GPT-4O,而GPT-4O仍然是该公司API的主要模型和平台的API和 Model and and 。
从性能的角度来看,GPT-4.5在许多方面都超过了GPT-4O和许多其他AI模型。例如,在基准测试(在处理简单,事实问题时检查了AI的准确性)中,GPT-4.5的表现优于GPT-4O,O1和O1和O3-MINI的推理模型。
但是,尚未宣布其最新的AI推理模型的性能。一位发言人告诉媒体,该公司尚未在基准测试中披露高分,并表示比较没有参考值。值得注意的是,在此测试中,AI初创公司的深层模型优于GPT-4.5。
在编程功能方面,GPT-4.5在SWE基础基准测试中的GPT-4O和O3-MINI可比(测试AI的编程问题),但不如DEEP和3.7。在SWE编程测试(测量AI生成完整软件功能的能力)中,GPT-4.5超过GPT-4O和O3-Mini,但仍然没有那么深。
在某些学术基准(例如AIME和GPQA)上,GPT-4.5的性能不如领导AI推理模型,例如O3-Mini,R1和3.7(从技术上讲属于混合模型)。但是,GPT-4.5仍然在数学和与科学相关的问题领域的领先水平上表现出色,比其他非推动模型更好。
创造过程充满了挑战
创建GPT-4.5的过程具有挑战性。彭博新闻( News)此前报道说,该模型在公司内被称为“猎户座”,但去年未能达到固定的性能基准。例如,截至去年夏天,猎户座在回答他未经培训的编程问题方面表现不佳。据熟悉此事的人们说,其他两个开发人员面临的关键问题是如何找到新的高质量培训数据来源以开发更先进的AI系统。
在这方面,GPT-4.5采用与上一代模型(包括GPT-4,GPT-3,GPT-2和GPT-1)相同的核心技术,即一种“无监督的学习”方法,可显着增加“预训练”阶段中的计算能力和数据量。在此过程中,系统将结合人类的反馈,以优化答案内容并调整与用户相互作用的模型的音调。此外,该公司还提出了新的方法,以使用从GPT-4.0培训数据中提取的信息进一步培训GPT-4.5。研究副总裁MIA表示,这种方法有助于提高模型的整体性能。
分析人士认为,GPT-4.5的发布标志着该时代的转折点。本月初,在X平台上发布了一篇文章,这将是该公司启动的最后一个模型,不依赖其他计算能力来“思考”查询,然后再回答。这种推理方法已在一些较新的模型(例如O1和O3)中采用。
将来,计划于今年晚些时候发布GPT-5,该版本将将GPT系列模型与O系列模型相结合,以构建一个AI系统,该系统可以独立判断在生成答案之前需要考虑多长时间。该目标说,这个目标是简化用户体验,以便用户不必从日益复杂的选项列表中进行选择。
目前,它正在与()和其他投资者进行谈判融资,并计划筹集高达400亿美元,将其估值提高到3000亿美元(包括新融资)。同时,一轮融资约为35亿美元,估值超过600亿美元,两名熟悉此事的人向媒体揭示了这一问题。
Sina 应用程序可用大量信息和准确的解释
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论