人工智能发展日新月异,GPT-5和Gemini 2.5 Pro在奥赛崭露头角

进不了网站?换个网络试试!

人工智能发展变化非常迅速。清晨浏览网络时,发现网友留言称,已经连续多少天没有出现人工智能领域的创新进展了。

人工智能发展日新月异,GPT-5和Gemini 2.5 Pro在奥赛崭露头角插图

记得三个月前,他们正式公布了在IMO竞赛中推理模型夺得了金牌的消息。

如今可知,巨型人工智能不仅于算术方面展现出卓越的推演拓展本领,亦在众多其他科学探索范畴内表现不俗。

需要特别留意的是,当前最优秀的人工智能模型在各种竞赛中都展现出了卓越的表现。

最近有一篇新论文发布,其中把国际天文和天体物理学奥林匹克竞赛当作参照物,通过实验验证了 GPT-5 和 2.5 Pro 这两个模型在天文和天体物理学领域有能力获得奥赛最高奖项

人工智能发展日新月异,GPT-5和Gemini 2.5 Pro在奥赛崭露头角插图1

该公司的首席执行官兼共同建立者格雷,传播了这项成果,情绪高涨以至于把 GPT 的标识都弄错了,

人工智能发展日新月异,GPT-5和Gemini 2.5 Pro在奥赛崭露头角插图2

未来某刻,人类探索宇宙深处之时,AI 大模型的印记将随之留存。

人工智能发展日新月异,GPT-5和Gemini 2.5 Pro在奥赛崭露头角插图3

人工智能发展日新月异,GPT-5和Gemini 2.5 Pro在奥赛崭露头角插图4

为什么选择 IOAA

新型人工智能模型的问世为科研工作开辟了新途径,尤其在天文学和天体物理学方面展现出独特价值。常规的机器学习技术在识别模式方面,例如目标归类和异常发现,确实效果显著,然而这类方法在处理深奥科学议题时,普遍存在适应性不足和逻辑推理能力欠缺的问题。

现有的天文学领域 LLM 基准测试,例如 和 Astro-QA,大多围绕基础问答展开,借助单选或是填空题来检验相关知识掌握情况。此类测试方式无法衡量天文学实践活动中至关重要的深度逻辑分析、新颖方案构思以及灵活论证技巧。为了弥补这一明显不足,本研究着手构建一套更为严苛且周全的考核体系。

科研工作者决定采用 2022 至 2025 期间的国际天文奥林匹克竞赛题目作为核心参考依据,这一决定主要源于三个方面考虑。

首先,与那些主要运用选择、简答或判断题型来检验天文知识的现有基准例如 和 Astro-QA 不同,IOAA 试题展现出更强的生态适用性,因为它评估的是实际天文探索过程中所需要的深度逻辑思维、新颖方案制定以及分阶段分析计算等综合能力。

另外,依照正式纲要,IOAA试题囊括了诸多天文学分支,诸如宇宙构造、球面三角学、恒星物理特性、天体运动规律、亮度测量方法以及观测设备原理,以此确保了考核的周密性

最终,IOAA 将理论物理知识、观测限制以及实际天体测量资料与数学推演相融合,开创了一种不同于 IMO、IPhO 和 IOI 等其他竞赛的考核途径,这种途径能够评估 LLM 在科学课题解决方面的整体水平

审视核心内容,涉及 IOAA 的两大板块,其一为理论议题,包含四十九项,其二为数据解析,含八项。理论议题又可细分,分为类别一,关乎几何或空间,须运用天球几何及球面三角学知识,以及类别二,涉及物理或数学,主要围绕天体物理运算展开,不要求几何可视化。鉴于 LLM 的数字本质,观测相关内容被排除在考量之外。

金牌结果

人工智能发展日新月异,GPT-5和Gemini 2.5 Pro在奥赛崭露头角插图5

在各个难度等级中,针对 IOAA 的理论题目,LLM 的分数情况,以及针对数据分析题目,LLM 的分数情况,这些数值都是按照总分的百分比进行标准化处理得出的。

理论考试

根据表格信息,GPT-5 和 2.5 Pro 在理论考核中最为出色,分数比其他模型高出 7 到 25 个百分点,差距十分显著。具体来看,GPT-5 在 2022 年(93.0%)、2023 年(89.6%)以及 2025 年(86.8%)都获得了最高成绩,而 2.5 Pro 则在 2024 年以 83.0% 的成绩排名第一。

虽然整体成绩很出色,但发现 GPT-5 在处理复杂问题时,结果比在基础题和普通难度题目上还要好。经过研究,了解到这种看似不合常理的现象,主要是由以下三个原因导致的

各个级别的题目数量都偏少,造成模型结果出现明显起伏,初级题目只有十道,中级题目有十一道,对应的总分分别是大约185分和151分,满分是1200分,所以少数错误就会大幅改变这个难度层级的得分情况。

GPT-5 在 2024 年的测试中屡次暴露出显著失误,这些错误相当一部分出现在涉及几何分析及空间概念理解的问题(参见第 3.2 节)。

GPT-5 有时会在涉及宇宙现象的题目上出现失误。比如,在 2024 年的考题第 9 题里,这道被划为容易题目的题目,GPT-5 因为一个原理性偏差再加上一个运算性偏差,总共丢掉了 18 分,这个分数几乎占到了简单题总分的大约十分之一。

其他模型同样具备不俗的实力,o3 的综合表现为 77.5%,持续保持领先优势,领先幅度达到 13 到 17 个百分点,其中 Opus 4.1 的成绩为 64.7%,4 的得分则是 60.6%。而且这些模型的表现都呈现出随着难度增加而减弱的趋势。这三款模型在这类较为容易的选择题测试中成绩相近,甚至有出色表现,但我们的测试数据表明,在处理复杂问题时它们的水平差距明显。这一发现启示我们:若要准确衡量大型语言模型在天文学研究方面的实际价值,就必须跳出单纯考察知识记忆的范围,设计出更周全的能力检验体系。

数据分析考试

尽管大型语言模型在理论考核中表现接近人类顶尖水准,不过数据分析考核更能体现其精细层面的能力构造与不足之处。GPT-5在数据分析环节获得了88.5分的平均成绩,这个分数反而超过了它在理论考核中的得分率(84.2%)。这一结果与其他模型形成了显著差异——其余大型语言模型在数据分析测试中的得分大多低于理论测试成绩10到15个百分点。

这种分化主要源于分析试题特别需要看懂图片、明白曲线变化以及通过图形推理数据的特点。GPT-5的多模态理解本领更出色,在解读图像和推算图形错误方面表现非常突出,这直接说明了它更胜一筹。

要使 LLM 在天体物理学科中成为科研助手,我们的发现表明:仅靠整体性考核是不够的,还必须建立具备环境适应性的、涵盖多种数据类型的分析测试平台,以此彻底考察模型在模拟科研活动中的实际应用能力。

对比人类成绩

为了更清晰地评估 LLM 的表现,我们将它的得分和 IOAA 依据奖牌评定标准的人类参赛者成绩进行对照分析。奖牌的授予是基于得分与中位数成绩的比率来决定的,其中中位数成绩是根据理论、数据分析和观测三个部分的总和来确定的:如果得分在中等成绩的 100% 到 130% 之间,就会获得铜牌;如果得分在 130% 到 160% 之间,就会获得银牌;如果得分超过 160%,则会获得金牌。我们的评估工作不涉及考察型测试,所以针对理论测试和资料处理测试,我们分别设定了不同的奖牌评定标准。

绝大多数 LLM 的能力都达到了顶尖水平。只有编号为四的模型是个例外,它在二零二三年考核时仅得到亚军成绩。特别要指出的是,GPT-五在二零二二年、二零二三年以及二零二五年时的发挥都强于当年 IOAA 的头名选手,而型号为二点五 Pro 的模型在二零二二年和二零二三年也取得了同等佳绩。

人工智能发展日新月异,GPT-5和Gemini 2.5 Pro在奥赛崭露头角插图6

在 IOAA 理论考试(2022–2025)期间,比较了 LLM 与人类参赛者的成绩差异。

人工智能发展日新月异,GPT-5和Gemini 2.5 Pro在奥赛崭露头角插图7

将 LLM 和人类参赛者在 IOAA 数据分析考试(2022–2025)中的表现进行对照分析。

人工智能发展日新月异,GPT-5和Gemini 2.5 Pro在奥赛崭露头角插图8

IOAA 理论测试里,各类题目中的模型成效。类别一涉及几何和空间题目,类别二关联物理和数学题目。各项得分都以百分数呈现。

错误分析

理论考核显示,大型语言模型应对第二类题目时准确率显著更高,达到67至91百分位,而处理第一类题目准确率则介于49至78百分位之间,两者表现差距达15至26个百分点。

最常见的失误种类属于认知性偏差,涉及方法运用不当、公式使用错误以及逻辑推理的不足。这类问题揭示了深入掌握物理知识的根本性困难。其次,几何学或空间判断是主要的错误诱因,特别是在球面三角测算、时间记录方式以及三维图像构建等环节,系统表现尤为薄弱。

数据分析考核时,差错在各类型题目中散布较为平均,核心问题点在于制图与图表 / 图像辨识,这在 o3 和 模型方面体现得特别明显,因为处理海量数据需要繁重的运算,导致计算失误比纯理论测验时更为普遍。

人工智能发展日新月异,GPT-5和Gemini 2.5 Pro在奥赛崭露头角插图9

按失误种类区分的失分情况包括:第一项为 IOAA 理论考试,时间跨度从 2022 年至 2025 年;第二项为 IOAA 数据分析考试,时间跨度同样为 2022 年至 2025 年。

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论