DeepSeek新发布:开源R1推理大模型与R1-Zero预训练模型,性能媲美GPT-4o,API价格仅为OpenAI的1/50

进不了网站?换个网络试试!

新版本远远超出预期,正在刷屏。

此次活动主要有三件:

开源-R1大型推理模型,性能与o1类似。

开源-R1-Zero,预训练的模型直接是RL,没有SFT,可以称为语言模型。

利用R1数据蒸馏出来的开源Qwen和Llama系列小模型在某些任务上直接超越了GPT-4o。

DeepSeek新发布:开源R1推理大模型与R1-Zero预训练模型,性能媲美GPT-4o,API价格仅为OpenAI的1/50插图

同时开放官方API。输入令牌(命中缓存)价格仅为o1的1/50,未命中缓存和输出令牌价格约为o1的1/27。

DeepSeek新发布:开源R1推理大模型与R1-Zero预训练模型,性能媲美GPT-4o,API价格仅为OpenAI的1/50插图1

甚至还有更多的小细节,论文中已经反复讨论过:

R1-Zero 模型在思考过程中有“顿悟时刻”,并学会为问题分配更多的思考时间。

DeepSeek新发布:开源R1推理大模型与R1-Zero预训练模型,性能媲美GPT-4o,API价格仅为OpenAI的1/50插图2

DeepSeek新发布:开源R1推理大模型与R1-Zero预训练模型,性能媲美GPT-4o,API价格仅为OpenAI的1/50插图3

网友们开始演绎接下来的剧情。如果顿悟之力能够稳定使用的话……那就不知道会走向何方了。

DeepSeek新发布:开源R1推理大模型与R1-Zero预训练模型,性能媲美GPT-4o,API价格仅为OpenAI的1/50插图4

此外,社区目前推测 o1-pro/o3 可能使用树方法。许多o1克隆人单独回答问题,然后以某种方式选择最佳答案。

如果将 -R1 与 -o1 和 Tree-of-(大约 50 个代理)结合起来,您可以以一小部分成本获得与 o3 类似的性能,最终可能会便宜数百倍。

DeepSeek新发布:开源R1推理大模型与R1-Zero预训练模型,性能媲美GPT-4o,API价格仅为OpenAI的1/50插图5

这次一共开源了6个基于R1数据提炼出来的小模型。其中,蒸馏版Qwen-1.5B在某些任务中可以超越GPT-4o。

DeepSeek新发布:开源R1推理大模型与R1-Zero预训练模型,性能媲美GPT-4o,API价格仅为OpenAI的1/50插图6

开源许可证也专门更新了,现在是MIT。

R1 是开源的。您可以根据需要运行任意数量的 R1 数据。 API 可用于蒸馏和微调。它可以免费用于商业用途。

DeepSeek新发布:开源R1推理大模型与R1-Zero预训练模型,性能媲美GPT-4o,API价格仅为OpenAI的1/50插图7

新的本源神出现了!

01新品发布

o1系列模型率先引入了推理时间扩展(-time)的概念。通过增加思维链(Chain-of-)推理过程的长度,在数学、编程和科学推理等任务中取得了显着的性能提升。

之前的研究探索了基于过程的奖励模型、强化学习、蒙特卡洛树搜索、束搜索等方法,但在一般推理性能上尚未达到O1系列模型的水平。

-R1-零

该团队迈出了利用纯强化学习来提高语言模型推理能力的第一步。

他们的目标是探索大型模型如何在没有任何监督数据的情况下通过纯粹的强化学习过程进行自我进化,从而获得推理能力。

具体来说,他们使用-V3-Base作为基础模型,GRPO(Group)作为强化学习框架,以提高模型在推理任务上的性能。

在训练过程中,-R1-Zero自然而然地出现了许多强大且有趣的推理行为。

DeepSeek新发布:开源R1推理大模型与R1-Zero预训练模型,性能媲美GPT-4o,API价格仅为OpenAI的1/50插图8

经过数千步的强化学习,-R1-Zero 在推理基准测试中表现良好。

例如,其在 AIME 2024 上的 pass@1 分数从 15.6% 提高到 71.0%,并且通过多数投票,分数进一步提高到 86.7%,与 -o1-0912 的性能相当。

DeepSeek新发布:开源R1推理大模型与R1-Zero预训练模型,性能媲美GPT-4o,API价格仅为OpenAI的1/50插图9

-R1

然而-R1-Zero也面临着可读性差、混合语言等挑战。

为了解决这些问题并进一步提高推理性能,团队提出了-R1,它将少量冷启动数据与多阶段训练过程相结合。

具体来说,他们首先收集了数千条冷启动数据来微调-V3-Base模型。随后,他们进行了类似于-R1-Zero的面向推理的强化学习。

当接近强化学习过程的收敛时,他们通过在强化学习检查点执行拒绝采样,结合来自-V3的写作、基于事实的问答和自我意识等领域的监督数据来创建新的SFT数据,然后重新训练-V3-基础型号。

在使用新数据进行微调后,检查点还经历了额外的强化学习过程,考虑了所有场景的线索。

经过这些步骤后,他们获得了一个名为 -R1 的检查点,其性能与 -o1-1217 相当。

DeepSeek新发布:开源R1推理大模型与R1-Zero预训练模型,性能媲美GPT-4o,API价格仅为OpenAI的1/50插图10

R1数据蒸馏模型

该团队进一步探索了从 -R1 到更小的密集模型的蒸馏。使用 Qwen2.5-32B 作为基础模型,直接从 -R1 中提取优于在其上应用强化学习。

这表明更大的底层模型发现的推理模式对于提高推理能力至关重要。

他们开源了经过提炼的 Qwen 和 Llama 系列模型。值得注意的是,他们的蒸馏 14B 模型在推理基准测试中显着优于当前最先进的开源 QwQ-32B-,而蒸馏 32B 和 70B 模型为密集模型中的推理任务设定了新的基准。

DeepSeek新发布:开源R1推理大模型与R1-Zero预训练模型,性能媲美GPT-4o,API价格仅为OpenAI的1/50插图11

最后,团队还分享了实验过程中多次失败的尝试,以防止后代踏入陷阱。

过程奖励模型和蒙特卡罗树搜索算法都没有取得进展。

不过,他们也强调,失败并不意味着这些方法无法开发出有效的推理模型。

DeepSeek新发布:开源R1推理大模型与R1-Zero预训练模型,性能媲美GPT-4o,API价格仅为OpenAI的1/50插图12

未来,他们计划继续在以下方向投入研究:提升通用能力、解决语言混乱问题、优化提示词敏感度问题、提高软件工程任务的性能。

DeepSeek新发布:开源R1推理大模型与R1-Zero预训练模型,性能媲美GPT-4o,API价格仅为OpenAI的1/50插图13

02 还有一件事

还有母语为英语的人对论文中的措辞和句子结构进行挑衅,认为这很可能是大模帮团队写的论文。

DeepSeek新发布:开源R1推理大模型与R1-Zero预训练模型,性能媲美GPT-4o,API价格仅为OpenAI的1/50插图14

同时,很多人注意到,在很多论文中,“-AI”出现在作者列表的第一位。

DeepSeek新发布:开源R1推理大模型与R1-Zero预训练模型,性能媲美GPT-4o,API价格仅为OpenAI的1/50插图15

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论