周五,在 12 天活动的第 12 天,首席执行官 Sam 宣布了今年早些时候推出的最新人工智能“推理”模型 o3 和 o3-mini。基于已推出的o1型号开发。该公司尚未发布这些模型,但今天将其用于公共安全测试和研究。
这些模型使用所谓的“私人思维链”,模型会停下来检查其内部对话并在做出响应之前提前计划。您可以将其称为“模拟推理”(SR),这是一种超越人工智能的基本大语言模型(llm)形式的方法。
为了避免与英国电信运营商 O2 潜在的商标冲突,该公司将其命名为“o3”而不是“o2”。在周五的直播中,奥特曼承认了公司命名的缺点,他说:“按照非常非常不善于命名的伟大传统,它将被称为 O3。”
据了解,o3 模型在 ARC-AGI 基准测试中取得了破纪录的成绩,该基准测试自 2019 年创建以来一直保持不败。在低计算场景下,O3 得分为 75.7%,而在高计算场景下,O3 得分为 75.7%。测试它达到了87.5%,与人类在85%阈值下的表现相当。
另据报道,O3在2024年美国数学邀请赛中得分高达96.7%,仅漏掉一题。该模型在涵盖研究生水平的生物学、物理和化学问题的 GPQA 中也取得了 87.7% 的成绩。在尖端数学基准上,o3 解决了 25.2% 的问题,而没有其他模型超过 2%。
o3-mini 版本也在周五发布,包括自适应思考时间功能,提供低、中、高处理速度。该公司表示,更高的计算设置会产生更好的结果。报告称,在基准测试中,o3-mini 的性能优于其前身 o1。
模拟推理正在兴起
这一消息发布之际,其他公司正在开发自己的 SR 模型,其中包括谷歌,该公司于周四发布了 Flash 2.0。去年11月,-r1推出,而阿里巴巴的Qwen团队发布了QwQ,他们称之为01的第一个“开放”替代品。
新的SR模型将首先提供给安全研究人员进行测试。 表示,该公司计划在一月底推出 o3-mini,随后不久将推出 o3。
海量信息、精准解读,尽在新浪财经APP
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论