尤其是新发布的数学基准,其准确率直接比o1高出12倍。
正是因为如此高的难度,o3的惊人突破让大家都感觉它的推理能力非同一般。
不过,近日却传出一则消息。 o3之所以能够在短时间内比o1提高12倍的准确率,是因为它有资金并且可以访问大部分数据集。
但为评论集创建问题和答案的数学家完全一无所知,不知道谁在赞助该项目并且有权访问数据。
简单来说就是:
对此,Epoch AI 解释道:“我们承认我们确实可以获得大部分问题和解决方案,但有一个看不见的保留集使我们能够独立验证模型能力。我们有口头协议,这些材料不会用于火车模型。”
但这个所谓的“口头协议”是与——好吧,现在还有谁会相信这个承诺呢?
根据互联网上的各种报道,这些问题应该是不公开的,目的是阻止人工智能公司使用这些数据来训练模型。
但现在看来,“AI公司无法访问该数据集”的事实实际上是Epoch AI故意制造的假象。
但考虑到该公司长期以来的欺骗和误导行为——从欺骗自己的董事会到强迫前员工签署秘密的非诽谤协议,无所不包。
所以这件事有些“出乎意料,但却在情理之中”。
Epoch AI首席数学家回应
消息曝光后,Epoch AI 首席数学家做出了回应。
他首先承认了自己的错误,并向那些独立做出贡献的数学家道歉,因为他们没有被告知真相。
对于o3惊人的25.2%的准确率,他只是在个人层面表示相信,但并没有真实、可靠、有根据的保证。
Epoch AI 联合创始人 Tamay 也正式发布博客回应。
对于这一事件,Tamay 的解释是:“我们的合同明确禁止披露资金来源信息以及大多数(但不是全部)数据集可以被访问的事实。”
回想起来,我们本应该更加积极地争取及时披露相关信息以审查设定贡献者的权利。我们对此承担责任,并承诺将来会做得更好。
虽然我们确实向一些数学家通报了实验室的资金支持,但这种沟通并不系统,也没有指定合作者。
这种不一致的沟通方式是我们的疏忽。我们应该从一开始就坚持开放伙伴关系的权利,特别是与制造问题的数学家。
仅在 o3 启动前后获得公开参与的许可是不够的。参与项目的数学家有权知道谁可以访问他们的工作。
尽管我们受到合同条款的约束,但我们应该将与贡献者的透明度作为我们合作的基本前提。
同时,他还宣称:“完全支持我们维持独立的看不见的测试集的决定——这是防止过度拟合、确保准确评估进度的重要保证。”
在沟通中,员工将评估集称为“严格保留”,这种公开表述与我们的理解一致。
此外,我想强调的是,对于每个实验室来说,拥有真正不受训练数据污染的测试集非常重要。
该项目从一开始就被设计和定位为评估工具,我们相信目前的安排完全符合这个初衷。
对于未来的合作,我们将努力提高透明度,确保贡献者在项目早期清楚了解资金来源、数据访问权限、使用目的等信息。
综上所述,Epoch AI确实意识到了这起事件的严重性,但其很多回应还停留在“公关说辞”层面,并且全程推责指责,称自己什么也没说因为“合同”的限制。
已有线索,引发热议
此举引起轰动,纽约大学教授加里、亚利桑那州立大学计算机教授等大咖纷纷撰文谴责这一行为。
向左或向右滑动即可查看
事实上,参与o3-mini早期测试的研究人员在去年12月首次发布时就发现了这条线索。
比如Open创始人在帖子中的发现,就从侧面证实了这一爆料:
实验结果表明,该模型擅长解决特定类型问题,但泛化能力尚未完全成熟。它在结构化任务上表现良好,但在需要多维推理能力的问题上仍然存在明显的缺点。
对此,谷歌研究员“Ted Shaw”分析称,这种效应可以有两种极端的解释:
1. 糟糕,我正在操作,将测试题泄漏到训练数据中! 2. 只需使用私人题库来指导新训练数据的总体设计方向和目标,以及设计推理路径。
当然,也有不那么极端的。例如,稍微更改问题内容以创建新的训练数据。从技术角度来看,测试数据中的token并不直接用于训练。
如今,SOTA车型之间的竞争已经变得非常激烈。如果采用这种机会主义的方式,模型就会在实际的应用场景中暴露出来(缺乏泛化能力)。
顶级AI实验室承担不起这种风险,所以按理来说,采用第二种方式的可能性更大。
但即便如此,这种行为仍然让 o1 和 o3 比其他未优化的复杂推理领域表现得更好。
不过这个差距不应该像一些在MMLU上使用第一种方法的“小语言模型”那样——评估分数和实际能力简直是天壤之别。
对于那些坚信自己使用了第一种方法并偷偷混入测试数据的人来说,我建议你观望一下o3在实际应用场景以及其他评测中与注重加强推理能力的下一代顶级模型相比表现如何。如何。
那么我们就会知道o3是否只在互联网上特别强,而在其他地方则不然。
参考:
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论