DeepSeek R1系列正式发布:探索AI模型的新纪元与赛博朋克风格的海底大鲸鱼

进不了网站?换个网络试试!

头图由豆宝生成。提示语:海底的大鲸鱼、赛博朋克、金属光芒。

作者|王朝阳

一个月前V3惊艳亮相后,其背后的“动力源”R1系列正式发布。

1月20日,R1系列的技术报告和各种信息上传到了。

据介绍,其此次发布了三套模型:1)-R1-Zero,无需任何SFT数据,直接将RL应用到基础模型上;2)-R1,源于数千条长思想链(CoT) ) 微调检查点以开始应用 RL 的示例,以及 3) 将推理能力从 -R1 提取到小型密集模型中。

-R1取得了79.8%的分数,略高于-o1-1217。在 MATH-500 上,它取得了 97.3% 的惊人成绩,表现与 -o1-1217 相当,明显优于其他模型。在编码相关任务中,-R1 在代码竞赛任务中表现出了专家水平,在竞赛中获得了 2029 Elo 评级,并超越了竞赛中 96.3% 的人类参与者。对于工程相关任务,-R1 的性能略优于 -o1-1217。

DeepSeek R1系列正式发布:探索AI模型的新纪元与赛博朋克风格的海底大鲸鱼插图

“RL 就是你所需要的”

这份技术报告所披露的技术路线中,最让人惊叹的就是R1零式的训练方法。

R1放弃了过去对于预训练大型模型至关重要甚至至关重要的训练技术之一——SFT。简单来说,SFT(微调)就是先用大量的人工标准数据进行训练,然后让机器通过强化学习进一步优化自己,而RL(强化学习)简单来说就是让机器按照一定的规则生成数据思维链条并调整自己的学习。 。 SFT 的使用是最初成功的关键,而今天 R1 Zero 完全用强化学习取代了 SFT。

而且,效果看上去还不错。报告显示,随着强化学习训练过程的进行,-R1-Zero 的性能稳步提高。例如,“在 AIME 2024 上,-R1-Zero 的平均 pass@1 分数从最初的 15.6% 跃升至令人印象深刻的 71.0%,达到了与 -o1-0912 相当的性能水平。这一重大改进凸显了我们 RL 算法的有效性优化模型性能。”

但R1零本身也存在问题,因为没有人类监督数据的介入,有时会显得混乱。为此,我们使用冷启动和多阶段强化学习来改进训练过程,并在 R1 零的基础上训练出更“人性化”的 R1。提示包括:

冷启动数据引入 - 针对-R1-Zero的可读性和语言混合问题,-R1引入了数千条高质量的冷启动数据进行初始微调,显着提高了模型的可读性和多语言处理能力。 ;

两阶段强化学习——模型通过两轮强化学习不断优化推理模型,同时符合人类偏好,提高多任务通用性;

增强监督微调——当强化学习接近收敛时,结合拒绝采样( )和多领域数据集,模型进一步强化写作、问答、角色扮演等非推理能力。

可以看到R1系列相比GPT甚至O系列在对待“监督数据”上更加激进。但这也在情理之中。当模型的重点从“与人交互”转向“数学逻辑”时,前者拥有大量现成数据,但后者多是停留在头脑中的抽象思维,没有现成数据。可以用,但是找那些奥数高手把他们脑子里的解题思路一一罗列出来,显然是费钱又费时间的。让机器生成某种也存在于自己大脑中的数据链是合理的。

论文中另一个非常有趣的点是,在R1零的训练过程中,存在突发时刻,称为“啊哈”。

技术报告提到,-R1-Zero在自我进化的过程中表现出了一个鲜明的特征:随着测试阶段算力的增强,复杂的行为会自发出现。例如,模型进行“反思”,重新审视和评估之前的步骤,并探索解决问题的替代方法。这些行为并不是明确编程的,而是模型与强化学习环境交互的自然产物,极大地增强了其推理能力,使其能够更高效、更准确地解决复杂任务。

“它凸显了强化学习的力量和美妙之处:我们不是明确地教导模型如何解决问题,而是简单地为其提供正确的激励,它就会自主开发先进的解决问题的策略。这个‘顿悟时刻’有力地提醒了我们强化学习在解锁人工智能新水平方面的潜力,为未来更加自主和自适应的模型铺平了道路。”

蒸馏啊蒸馏,欢迎大家来一起蒸馏

在官方推文中,所有介绍的重点不是R1模型技巧或R1模型排名结果,而是蒸馏。

“今天,我们正式发布了-R1,并同步开源模型权重。 -R1遵循MIT,允许用户通过蒸馏技术,借助R1训练其他模型。 -R1推出API,通过设置将思维链输出开放给用户`model='-'' 即可调用官网和App同步更新。

这是其正式发布的前几句话。

在R1的基础上,使用Qwen和Llama提炼出多个不同尺寸的模型,以适应市场上最主流的模型尺寸需求。它并不是自己做的,而是使用了目前生态最强大、能力最强的两个开源模型架构。 Qwen和Llama的架构相对简单,并提供了高效的权重参数管理机制,适合对大型模型(例如-R1)进行高效的推理能力蒸馏。蒸馏过程不需要对模型架构进行复杂的修改,降低了开发成本。而且,直接在Qwen和Llama上进行蒸馏训练比从头训练相同规模的模型节省了大量的计算资源,同时可以重用现有的高质量参数初始化。

这是一个很好的计算。

而且,效果同样不错。

DeepSeek R1系列正式发布:探索AI模型的新纪元与赛博朋克风格的海底大鲸鱼插图1

“我们开源了两个 660B 模型 -R1-Zero 和 -R1 的同时,通过 -R1 的输出,我们提炼出了 6 个小模型,开源给社区。其中32B和70B型号达到了基准o1-mini效果。”

另外,在技术方向上,这也给行业带来启发:

对于小模型,蒸馏优于直接强化学习:在 AIME 2024 和 MATH-500 等多个推理基准上,从 -R1 蒸馏而来的小模型比小模型上的直接强化学习表现更好。大模型学到的推理模式在蒸馏中得到了有效的转移。

比更有活力

如果简单总结一下R1系列的发布,我们用了巨大的算力和各种资源训练了一个强大的底层模型——这个模型称为R1零。在训练过程中,我们直接放弃了SFT等以GPT系列为代表的预处理器。这种训练技术几乎完全依赖于强化学习,创建了一个仅依靠自身反射就能进行泛化的模型。

然后,因为所有的能力都是通过“自我反省”学到的,R1零有时显得有点复杂和混乱。为了更方便使用,它使用了自己的一系列技术来使其兼容真实场景。完成比对并转换 R1。

然后在此基础上,我们不再自己去蒸馏小模型,而是使用了几个最流行的开源框架,蒸馏出了几个最合适尺寸的模型。所有这些都是开源的,供外部参考和使用。

整个过程中,他展现出了自己独特的技术路线和风格。这条线正在正面交锋。

对于陆续报道的O系列的训练方式,“对位”基本延续了GPT系列形成的风格。此前,一位负责训练安全与对齐部分的研究员曾向我们透露,在内部,所谓与人类的安全与对齐,其实和提升模型能力是一回事。但后来,随着o3的宣布,同时发生的就是这些人类安全对齐机制研究人员的集体辞职。这也让公司的创新变得遮遮掩掩,从外部看来似乎已经放缓,活力下降。

这种反差也让现阶段的异军突起更加令人期待。比它更有活力。

从R系列的角度来看,它的定位是放在R1模型的训练阶段,而R1零更像是追求利用最极致的强化学习方法来发展强大的逻辑能力。人类关于是否喜欢的反馈并没有混合到最初的 R1 零训练中。

这继续将“基本模型”的功能与实际使用的模型分开。这实际上是 GPT3 一开始的想法,但当时基本能力和人类偏好是分两个阶段完成的。现在更加抽象基本逻辑能力,更加强调实用性能和性价比。这也是V3之前被认为文科能力薄弱的原因。

因此,与“追赶o1”相比,R1 0所展现出的能力、用它提炼出来的V3的惊人之处,以及这次用Llama和Qwen提炼出来的几个小参数模型所展现出来的能力,这才是这个系列的关键的行动。

在与人类交互方面,它因为GPT4提供的基础能力而取得了突破,但它选择立即关闭源,这样只有它自己才能突破。在泛化强大的数学推理能力方面,V3因为R1的强势出现而实现了突破,并且将其开源,选择让大家一起突破。

威胁是真实存在的,接下来的“竞争”将会变得越来越有趣。

DeepSeek R1系列正式发布:探索AI模型的新纪元与赛博朋克风格的海底大鲸鱼插图2

海量信息、精准解读,尽在新浪财经APP

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论