机器之心编辑部
随着上个月2025年研究生考试的结束,最新的研究生数学试题成为大型语言模型尤其是推理模型的“试验场”,将考验他们的深度思维能力。
业界曾经有一个共识,即大型语言模型在字面层面上的表现令人印象深刻,但到了数学上,就不太令人满意了。去年一度流行的“9.9 vs. 9.11”比例问题导致包括GPT-4o在内的众多大型模型翻车。直到深度推理模型的出现,情况才得到根本改善。
发布的o1模型在解决复杂且专业的数学问题时的表现令人印象深刻。经过一定时间的深思熟虑,大模型回答问题的能力和准确性有了很大的提高。这种被称为推理端法则的现象已经成为持续推动大模型能力提升的关键力量。在黄仁勋最新的CES 2025演讲中,他还将测试(即推理)描述为大型模型开发的三个曲线之一。
可以看到,继o1之后,国内大型模型厂商也陆续推出了自己的深度推理模型,并在某些任务上表现出色。算完之后,时间线大概是这样的:
你可能会好奇,这些深度推理模型的能力(尤其是数学推理能力)有多强,谁能拔得头筹?这时就需要公平的标准化测试。
为了综合评价这些模型在数学推理方面的能力,清华大学大模型评测组(以下简称评测组)结合2025年研究生入学考试数学试题(一、二、三) ),对上述深度推理模型进行了严格的评估。审查。同时,为了保证评测的全面性,各家旗舰基础车型也纳入评测。
此次入选的13款车型详情如下:
从结果来看,基于所有模型的平均得分,第一名是GPT-o1模型,这并不奇怪。第二名是来自Zhipu的GLM-Zero-。数学三科平均分138.70,仅次于o1,成为国内第一大模型,距离第一名不到3分。第三位是QwQ,来自一般意义。
测试方法
在本次评测过程中,评测团队发现并非所有模型都提供API支持,部分提供API服务的模型在输出内容长度超过一定限制时可能会出现内容截断的情况。为了保证评测工作的公正性和准确性,评测组决定统一使用各车型厂商的网页进行测试操作。
测试过程中,每个问题都在独立的对话窗口中进行,以消除上下文信息对测试结果可能产生的干扰。
鉴于部分模型的输出存在一定的不稳定性,为了减少由此带来的分数波动,评估团队设定,当同一模型在3次测试中正确回答2次及以上时,将被记录为正确答案。
结果分析
接下来将从考试总成绩、单卷成绩、深度思维模型与基础模型三个方面对本次评测结果进行详细分析。
总分
对于总分,评审组将三份试卷的分数相加,计算出平均分,按照高分排名。结果如下所示:
从图中可以看出,GPT-o1仍然处于领先地位,并且是唯一达到140分以上的模型。与排名垫底的GPT-4相比,分数优势高达70分。
第二层(130分以上)模型包括GLM-zero-和QwQ,得分分别为138.7和137.0分。
-r1-lite、Kimi-k1、-o1- 和 -v3 属于第三层(120 分或以上)。
可见深度思维模型一般都能达到120+的水平。这也体现了深度思维模型解决数学问题的强大能力。
值得注意的是,2023年位居榜首的基本模型GPT-4在本次测试中仅获得70.7分,排名垫底。这一结果表明,语言模型在过去的一年(2024年)在数学推理领域取得了重大进展。
另一方面,在没有深度思维能力辅助的情况下,-v3作为基础模型,仅凭逻辑推理能力就已经能够跻身第三梯队。这说明基础模型和深度思维模型之间的能力界限并不明确。
单张试卷分析
为了更清晰地展现大模型在每张试卷答题能力方面的表现,评估团队对每张试卷的错题分布进行了深入分析。
在数学1的评估过程中,GPT-o1、GLM-zero-、QwQ和-r1-lite这四个模型得分相同。通过进一步分析错误题,评估团队发现所有模型在第20题(12分,涉及曲面积分的求解)和第21题第二题(6分,涉及特征向量的求解)中均存在错误。
在数学2的评价中,各个模型的分数分布比较分散。经过统计分析发现,第3、5、7题成为所有模型出错的集中区域。错题具体分布如下图所示:
数学3的评估结果显示,模型错误发生最严重的区域主要是第14、15、16、19题。相关错题分布如下图所示:
通过对上面每张试卷错题的详细分析,我们可以清楚地看到,GPT-o1(如阴影部分所示)在总共66道题中只答错了3.5道;而GPT-o1回答了错误的问题,其他问题模型也存在常见错误,这说明GPT-o1仍然是深度推理模型的天花板。
基础模型 vs 深度思考模型
最后,为了全面深入地挖掘各模型厂商在优化深度思维能力方面取得的成果,评测团队对相应的基础模型和深度思维模型进行了详细的对比分析。
需要注意的是,这里的比较并不意味着每个深度思维模型都是在对应的基础模型的基础上进行优化的。其主要目的是直观地展示各厂商在提升模型综合能力方面的进展和成效。
相关对比结果如下图所示:
注:基本型号使用GPT-4o。
通过对比分析,与基本模型GPT-4o相比,深度思维模型GPT-o1的提升最为显着,达到了57.3分。其次是阿里巴巴的Qwen模型和智浦的GLM模型,分别提高了47.0分和34.3分。
另外,《深度探索》和《月之暗面》的提升幅度较小,这主要是由于它们的基础型号得分较高。以Deep 为例,其基础模型-v3初始得分高达120.3分,在参赛基础模型中排名第一。
本次测试中,评估团队选择了性能最好的基础模型——v3作为参考基准,评估各厂商深度思维模型的性能提升情况。相关数据如下图所示:
可以看到,智浦、阿里巴巴在深度思维模型的性能提升上做了很大的优化,而-v3等其他模型在本次测试中的结果基本相似。
逐一查看这些测试结果,我们可以发现:虽然o1在深度推理方面仍然是最强的,但国内的大规模推理模型正在逐渐缩小与它的差距。这一次,GLM-零-和阿里QwQ的结果不言而喻。
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论