大模型能否写出ICML Spotlight论文?AI在科研领域的突破探索

进不了网站?换个网络试试!

一个大型模型可以编写ICML纸吗?

近年来,AI从科学研究辅助工具转变为创新引擎:从解决蛋白质折叠的问题到GPT系列模型,这些模型展示了文学综述和数学推理能力,人工智能正在逐渐通过人类认知的边界而破裂。

今年3月12日,AI宣布,他们的AI-V2推出通过了ICLR会议上的讲习班的同行评审过程。这是AI科学家撰写的第一份科学研究论文,已通过同行评审!

大模型能否写出ICML Spotlight论文?AI在科研领域的突破探索插图

这一里程碑事件标志着科学研究领域的AI的突破,人们也在进一步探索AI代理的独立研究能力。

4月3日(纸基准测试),这是一种基准制度,用于评估AI代理的尖端人工智能研究能力的自主再生产。如果大型模型代理具有自动编写AI/机器学习研究论文的能力,它不仅可以加速机器学习的开发,而且需要仔细的评估以确保AI功能的安全开发。

在几个重要的AI安全框架中扮演评估角色:

大模型能否写出ICML Spotlight论文?AI在科研领域的突破探索插图1

研究团队构建了一个测试环境,用于评估具有自动编程功能的AI代理。在这个基准中,研究小组要求代理在机器学习研究论文中重现实验结果。完整的繁殖过程包括纸质理解,代码基础开发,实验执行和调试。这种类型的繁殖任务很困难,即使对于人类专家来说,也需要几天才能完成。

测试基准测试在测试程序中从ICML 2024中选择了20个选定的论文,它们都来自口头。这些论文涵盖了12个不同的研究主题,包括Deep等。每篇论文都配备了详细的评分标准,共有8316个重复结果可以独立评估。为了确保评估的质量,本文中的评分标准是与原始作者合作制定的,并采用了层次结构设计,以便可以以更细粒度的方式测量生殖进度。

鉴于机器学习论文的复杂性,人类专家通常需要数十个小时才能评估一次复制尝试。为了提高评估效率,研究团队开发了一个基于LLM的自动评估系统,并设计了一个辅助评估框架,以将自动评估结果与人类专家判断的黄金标准数据集进行比较。其中,使用自定义框架的O3米尼最高审查表现最好,在辅助评估中获得了0.83的F1分数,证明它可以是人类判断的可靠替代方法。

大模型能否写出ICML Spotlight论文?AI在科研领域的突破探索插图2

研究表明,代理商表明能够重现无法忽略的机器学习研究论文。 3.5(最新版)通过基本代理框架在基准测试中得分21.0%。

研究小组选择了由3篇论文组成的一部分测试,以进行深入评估,使用机器学习中的博士学位作为人类基准(使用3个测试的最佳分数)。在48小时的测试时间中,人类基准得分为41.4%,而GPT-4(O1)在同一子集中得分26.6%。此外,研究团队还开发了一个轻量级评估版本Code-Dev,其中GPT-4的性能提高到43.4%。

任务

对于评估中的每个样本,评估的代理人收到了论文及其补充说明。

在这里,代理需要提交一个代码存储库,其中包含复制本文实验结果结果所需的所有代码。存储库根必须包含一个.sh文件,作为执行所有必要代码以重现纸张结果的入口点。

如果.SH可以重现本文报告的实验结果,则将被视为该论文的成功副本。

该数据集包含用于定义每篇论文成功复制所需的特定结果的评分标准。为了防止过度拟合,代理商将不会在尝试期间看到评分标准,但需要推断需要从纸张中复制的内容。

重要的是,该评估禁止代理使用或查看本文作者的原始代码基础(如果有)。这样可以确保代理商的编码和执行复杂实验的能力,而不是使用现有的研究代码。

大模型能否写出ICML Spotlight论文?AI在科研领域的突破探索插图3

规则

该设计对代理框架仍然是中性的,因此对其操作环境没有具体要求。但是,为了确保公平的比较,基准有以下规则:

评级标准

为每篇论文制定评分标准是开发最耗时的部分。每个评分标准都是与每篇论文的原始作者之一合作编写的。从阅读论文,初始创作,审查评分标准,迭代到最终签名,每篇论文需要数周。

每个评分标准均被构造为分解层次结构中给定纸所需的主要结果的树。例如,根节点始于预期的最高水平结果,例如“论文的核心贡献已重现”。第一级分解可能会引入每个核心贡献的节点。每个节点的子节点将更详细地介绍特定的结果,例如“使用B.1节中的超参数在数据集上微调了GPT2-XL”。

重要的是,所有满足节点的儿童也意味着母节也已经满足,因此树的所有叶子节点的评分足以充分评估整体成功率。

叶节点有精确且细致的要求。拥有许多细致的要求使我们可以对一些尝试进行评分,并使法官更容易评估单个节点。作者不断分解节点,直到它们所代表的要求足够良好,以至于估计专家可以审查提交是否在不到15分钟内满足要求(假设对论文熟悉)。 20篇论文中有8316个叶子节点。表2显示了每个评分标准中节点的总数。

大模型能否写出ICML Spotlight论文?AI在科研领域的突破探索插图4

所有评分标准节点也具有权重,每个节点的权重表明相对于其兄弟姐妹节点的贡献的重要性,不一定是该节点实现的难度。加权节点奖励在复制时优先考虑纸张的更重要部分。

使用大型模型来判断

在初步实验中,发现使用专家手动评分每篇论文需要数十个小时,因此有必要使用自动化方法来评估实际应用。

为了扩展提交的内容,作者开发了一个简单的基于LLM的华术,然后创建了辅助评估以评估法官的绩效。

AI法官的实施称为“”。鉴于提交,AI法官将在评分标准中独立评分每个叶子节点。对于特定的叶子节点,法官将获得论文的完整评分标准JSON,叶节点要求和提交内容。

O3-Mini用作法官的后端模型,估计评级单个提交的成本约为66美元(API积分)。对于Code-Dev,可以将成本降低至每张纸的10美元。

大模型能否写出ICML Spotlight论文?AI在科研领域的突破探索插图5

测试结果

基于所有20篇论文,评估了几种大型GPT-4O,O1,O3,-R1、3.5(新版本)和2.0 Flash的模型,并对每篇论文进行了3次评估。

表4列出了每个模型的平均繁殖分数。可以看出,3.5的表现良好,得分为21.0%。 O1的表现不佳,得分为13.2%,而其他型号的表现不佳,得分不到10%。

大模型能否写出ICML Spotlight论文?AI在科研领域的突破探索插图6

检查代理商的工作日志表明,除3.5外,所有其他模型通常都早点结束,声称他们已经完成了整个模仿或遇到了无法解决的问题。所有代理商都未能在有限的时间内制定最佳策略来重现论文。可以观察到O3-Mini通常会在使用该工具时遇到困难。

这些情况表明在执行长期任务时,当前模型中的弱点。尽管大型模型表现出足够的制定和编写多步计划的能力,但实际上它没有采取一系列动作来实施该计划。

大模型能否写出ICML Spotlight论文?AI在科研领域的突破探索插图7

大模型能否写出ICML Spotlight论文?AI在科研领域的突破探索插图8

人们认为,基准将推动将来大型模型能力的持续增长。

参考内容:

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论