在4月15日报道说,刚才将GPT-4.1系列的三种型号一一拿出,并说这是有史以来最小,最快,最便宜的模型系列,而新型号的整体性能比GPT-4O和GPT-4O和GPT-4O Mini的整体性能要好。
GPT-4.1系列模型包括三个模型:GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO。上下文窗口都达到了100万个令牌,输出令牌的数量达到32,768,知识截止日期为2024年6月。基准测试表明,其编码,指令合规性和长期理解的分数All GPT-4O和GPT-4O Mini都超过GPT-4O和长期理解。
GPT-4.1系列模型仅通过API提供,现在向所有开发人员开放。 GPT-4.5预览将在API中开始弃用,因为GPT-4.1模型家族在许多关键功能上提供了相似的性能,同时又降低了成本和延迟。 GPT-4.5预览版将于今年7月14日关闭。
特定的绩效优化着重于编码,指令符合性和长期理解:
编码:GPT-4.1在SWE-Bench验证测试中得分54.6%,比GPT-4O增长了21.4%,比GPT-4.5增长了26.6%。
指令合规性:在Scale的指令合规能力指标的基准测试中,GPT-4.1得分为38.3%,比GPT-4O增长了10.5%。
长文本理解:在用于多模式长文本理解的视频MME基准中,GPT-4.1在没有字幕的长文本类别中得分72.0%,比GPT-4O增加了6.7%。
对于对延迟更敏感的场景,GPT-4.1 Nano专注于提及它,并且是其最快,最经济的模型。 GPT-4.1纳米基准MMLU得分为80.1%,GPQA得分为50.3%,Aider多语言编码得分为9.8%,都高于GPT-4O Mini。
在博客中提到,更好的性能和更经济的GPT-4.1系列模型将为开发人员构建智能系统和复杂代理应用程序开辟新的可能性。
就价格而言,对于中型查询,GPT-4.1的价格比GPT-4O低26%。对于重复使用相同上下文的查询,及时的高速缓存折扣将从前50%增加到75%。最后,除了标准费用的标准费用以外,对于长上下文请求,没有其他费用。
01。编码能力:比GPT-4O表现更好。超过80%的用户像GPT-4.1应用程序
在各种编码任务中,GPT-4.1的性能要比GPT-4O的表现更好,包括主动求解编码任务,前端编码,减少不必要的编辑,遵循DIFF格式,确保工具使用方面的一致性等。
与GPT-4O相比,GPT-4.1可以创建功能更强大,更漂亮的Web应用程序,如下图所示的“闪存卡”应用程序:
在SWE-Bench上,该指标衡量了现实世界软件工程技能,GPT-4.1完成了54.6%的任务和33.2%的GPT-4O,这表明GPT-4.1提高了其探索代码库,完整任务和生成可以运行和测试的代码的能力。
在此测试中,该模型接收了一个代码库和问题描述,然后需要生成一个补丁以解决问题,并且该模型的性能将在很大程度上取决于所使用的提示和工具。
对于想要编辑大文件的API开发人员,GPT-4.1在多种格式的代码差异方面更可靠。 GPT-4.1在多语言差异基准Aider中得分是GPT-4O的两倍,比GPT-4.5高8%。
该评估研究了模型编码各种编程语言的能力,以及以总体和不同格式更改模型的能力。 GPT-4.1经过专门培训以遵循差异格式,该格式使开发人员可以通过仅通过模型输出更改的线而不是重写整个文件来节省成本和延迟。
此外,将GPT-4.1的输出令牌限制增加到32768和GPT-4O到16384代币,它还建议使用预测的输出来减少完整文件重写的延迟。
在AIDE中,该模型通过编辑源文件来解决编码练习,允许重试一次。
在前端编码方面,GPT-4.1可以创建更强大,更漂亮的Web应用程序。在比较测试中,手动评估者更喜欢GPT-4.1生成的网站,而不是80%的GPT-4O生成网站。
除上述基准测试外,GPT-4.1还可以减少不必要的编辑。在内部评估中,代码中不必要的编辑从GPT-4O的9%降至GPT-4.1的2%。
02。按照说明:评估6个关键命令的性能和多轮自然对话效果比GPT-4O高10.5%
开发了内部评估系统,以在多个维度和几个关键说明中跟踪模型的性能,包括:
:提供指定指定对自定义格式的模型响应的说明,例如XML,YAML等;
:指定模型应避免的行为,例如“不要要求用户联系支持”;
:为必须按定单执行的模型提供一组说明,例如“首先询问用户的姓名,然后询问他们的电子邮件”;
:输出内容包含某些信息,例如“编写营养计划时始终包含蛋白质含量”;
:以特定方式分类输出,例如“按人口排序”。
:如果请求的信息不可用,或者请求不属于给定类别,则指南模型说“我不知道”或类似的类别。例如:“如果您不知道答案,请提供支持联系电子邮件。”
博客提到这些类别是根据开发人员反馈得出的。在每个类别中,对简单,中等和困难的提示进行了细分,并且在困难的提示方面,GPT-4.1在GPT-4O方面显着改善。
GPT-4.1在难度提示方面显示
多轮指令以下的重要性是开发人员,该模型需要保持对话中的连贯性并跟踪用户以前告诉它的内容。 GPT-4.1经过培训,以便可以更好地从过去的对话信息中提取信息,从而实现更自然的对话。在规模的基准测试中,GPT-4.1比GPT-4O高10.5%。
GPT-4.1测试结果
在测试中,它使用带有可验证说明的提示,例如指定内容长度或避免某些术语或格式。 GPT-4.1得分为87.4%,而GPT-4O为81.0%。
GPT-4.1测试结果
早期测试人员指出,GPT-4.1可能更容易理解字面意义,因此建议开发人员在提示中阐明特定的说明。
03。长文本理解:与大型代码库和长文档一起工作不是问题。
GPT-4.1系列模型可以处理100万个令牌上下文,而先前的GPT-4O上下文窗口是一个。一百万个令牌已经是整个反应代码基础的8倍以上,因此较长的上下文适用于处理大型代码库或大量长文档。
GPT-4.1模型还经过培训,可以忽略长期和短上下文长度的干扰信息,这也是在法律,编码和客户支持等多个领域中企业应用程序的关键功能。
在博客中,展示了GPT-4.1在上下文窗口中不同位置检索隐藏少量信息(即“针头”)的能力,也就是说,可以“在中找到针头”的能力。
内部“在干草堆中找到针头”评估GPT-4.1模型
结果表明,GPT-4.1可以在所有位置和各种上下文长度(最高100万个令牌)上准确检索此关键信息(“针”)。它提取与当前任务有关的详细信息,无论输入中相关细节的位置如何。
在实际使用中,用户通常需要模型来理解,检索多个信息片段并了解这些片段之间的关系。为了评估此功能,正在开发一种新的评估工具:-MRCR(多轮核心词识别)。
-MRCR可用于测试模型在上下文中查找和区分多个隐藏关键信息的能力。评估包括用户与助手之间的多轮综合对话,用户要求模型在其中撰写有关主题的文章,例如或“写有关Rocks的博客文章”。然后,它在整个对话上下文中插入2、4或8个相同的请求,基于模型需要检索与特定请求实例相对应的答复。
在-mrcr中,模型回答的问题将具有散布在上下文中的2、4或8个类似的提示干扰项,并且该模型需要在这些问题和用户提示之间进行歧义。
在-mrcr中,该模型用2个干涉项添加到模型的评估结果中回答了该问题
在-mrcr中,该模型用4个干涉项添加到模型的评估结果中回答了问题
在-mrcr中,模型回答该问题添加了8个干扰术语以进行评估结果
挑战在于,这些请求与其他上下文非常相似,并且模型很容易被微妙的差异误导。发现当上下文长度达到128K令牌时,GPT-4.1比GPT-4O好。
还发布了用于评估多跳长上下文推理的数据集。这是因为许多需要长上下文的开发人员用例都需要在上下文中进行多个逻辑跳跃,例如在编写代码时在多个文件之间跳跃,或回答复杂的法律问题时的交叉参考文档,等等。
该模型需要在上下文中跨多个位置进行推理,该窗口填充了上下文窗口的定向图,由十六进制哈希组成,然后要求该模型从图中的随机节点开始一个广度优先搜索(BFS),然后要求它以某个深度返回所有节点。
评估结果
GPT-4.1在此基准测试中获得了61.7%的精度,可与O1的性能相当并击败GPT-4O。
除了模型性能和准确性外,开发人员还需要可以快速响应以满足用户需求的模型。改进了推理堆栈以减少第一个令牌的时间,并通过及时缓存来进一步降低潜伏期和成本节省。
初步测试表明,GPT-4.1的第一个P95令牌延迟约为15秒,在一个上下文令牌的情况下,一百万个上下文令牌为半分钟。 GPT-4.1 Mini和Nano更快。例如,GPT-4.1输入令牌的纳米查询,通常在五秒钟内返回第一个令牌。
04。多模式理解:回答没有字幕的问题和阅读图形数学问题,均优于GPT-4O
就图像理解而言,GPT-4.1 Mini在图像基准中优于GPT-4O。
对于多模式用例,例如处理长视频,长上下文性能也很重要。在Video-MME(长时间无字幕)中,该模型根据30-60分钟的视频没有字幕回答了多项选择问题,其中GPT-4.1的得分占GPT-4.1的72.0%,占GPT-4O的65.3%。
MMMU测试结果用于模型回答问题,包括图表,图表,地图等:
模型求解视觉数学任务的测试结果:
模型回答有关科学纸张图表的问题 - 测试结果:
05。结论:开放建造复杂代理的可能性
GPT-4.1的改进与开发商日常开发的实际需求有关。从编码,教学符合性到长篇小说的理解,更好的性能和更经济的GPT-4.1系列模型已经为构建智能系统和复杂的代理应用开辟了新的可能性。
将来,这可能会使开发人员可以将其与各种API一起使用,以构建更有用的和可靠的代理,这些代理有可能应用于现实世界软件工程,从大量文档中提取见解,以最少的人为干预以及其他复杂的任务解决客户请求。
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论