首页 » 财经投稿 » 正文

PRIME：通过隐式奖励强化过程，提升语言模型推理能力的开源解决方案

2025-01-07 51

进不了网站？换个网络试试！

我们还能做些什么来打破数据墙？

近日，清华大学UIUC等机构的研究人员提出了PRIME（）：通过隐性奖励进行过程强化。

地址：

这是一个带有过程奖励的在线 RL 开源解决方案，可以超越 SFT（监督微调）或蒸馏等方法来提高语言模型的推理能力。

与SFT相比，PRIME让模型在重要的基准测试中实现了巨大的改进：平均提高了16.7%，在AMC和AIME中均提高了20%以上。

Eurus-2-7B-PRIME和Qwen2.5-Math-7B-使用相同的基础模型（Qwen-2.5-Math-7B），但在上表的6个测试中，有5个超出版本。它还超越了 GPT-4o。

这个结果只使用了Qwen Math的数据资源（230K SFT + 150K RL）的1/10！

作者已公开本研究中使用的所有模型和数据。有兴趣的读者请查看文章末尾的链接。

过程奖励模型

预热阶段 (SFT)

如前所述，选择 Qwen2.5-Math-7B-Base 作为起点，然后使用竞赛级别的数学和编程基准提高难度，包括 AIME 2024、AMC、MATH-500、Math 和 (v2 ）。

首先对基础模型进行监督微调，以获得 RL 的入门模型（教模型学习某些推理模式）。

为此，研究人员设计了一个以动作为中心的链式推理框架，其中策略模型在每一步选择 7 个动作中的一个，并在执行每个动作后停止。

为了构建 SFT 数据集，研究人员从多个开源数据集中收集了推理指令。

值得注意的是，对于很多有真实答案的数据集，作者选择保留它们用于后期的 RL 训练，目的是让 SFT 和 RL 使用不同的数据集来使 RL 中的探索多样化，并且作者认为真实标签是在PL中更重要。

作者使用LLaMA-3.1-70B-来回答指令，并使用系统提示要求模型执行以行动为中心的思维链。

隐式PRM

接下来，访问过程奖励模型 (PRM)。这里使用隐式PRM，只需要在响应级别标签上训练ORM。

过程奖励模型的简单理解就是对每个推理步骤进行评分。例如：

PRM 以此粒度评估响应。

在本文的隐式PRM中，可以使用以下方法免费获得流程奖励：

只需收集响应级别数据并训练 ORM 即可获得 PRM，无需注释步骤标签。

这与ORM训练目标的具体选择无关。例如，使用交叉熵损失来实例化隐式PRM可以替换为：

强化学习

本文的目标是广泛使用强化学习（RL）来提高推理能力。针对这种资源有限的情况，作者总结了一些最佳实践：

从真相验证器和高质量数据开始：作者进行了严格的数据收集和清理，以获得可验证的 RL 数据，并发现仅使用生成的验证器就足以构建强大的基线。作者比较了不同的强化学习算法，得出的结论是，类似价值无关模型的方法足够有效。使用“中”问题进行稳定训练：作者提出了一种称为在线提示过滤器的机制，通过过滤掉困难和简单的问题，在很大程度上稳定了 RL 训练。使用 PRM 强化学习

将 PRM 集成到在线强化学习中并非易事，有几个关键挑战需要解决。

如何为强化学习提供强化奖励？

奖励稀疏性一直是强化学习中长期存在的问题。到目前为止，我们仍然没有一个特别好的解决方案来为 LLM 的在线强化学习构建密集奖励。

以往的方法主要是构建密集奖励的附加价值模型。众所周知，这样的模型很难训练，并且对性能提升不大。

根据之前对隐式PRM的介绍，使用

可以通过隐式PRM免费获得代币级别的流程奖励。

该方法可以直接替代PPO中的价值模型，并且很容易与任何优势估计函数和结果奖励相结合。在实践中，作者将过程奖励与 RLOO、GRPO、ReMax 和 PPO 进行了较小的修改集成。

如何设置一个好的PRM来启动RL？

即使我们找到一种在 RL 中使用过程奖励的方法，训练一个好的 PRM 也并非易事：需要收集大规模（过程）奖励数据（昂贵），并且模型应该在泛化和分布转移平衡之间取得良好的结果。

隐式 PRM 本质上是一种语言模型。所以理论上任何语言模型都可以作为PRM。在实践中，作者发现原来的政策模型本身就是一个不错的选择。

如何在线更新PRM以防止奖励被盗？

在在线强化学习中，避免 RM 过度优化或被黑客攻击至关重要，这需要 RM 与策略模型一起不断更新。然而，考虑到步骤标签的成本很高，在 RL 训练期间很难更新 PRM——可扩展性和泛化问题。

然而，我们的隐式 PRM 仅需要更新结果标签。也就是说，可以在训练期间使用结果验证器轻松更新 PRM。

此外，双重转发是可能的：首先用策略部署更新PRM，然后使用更新的PRM重新计算过程奖励，从而提供更准确的奖励估计。

PRIME算法

下图表示了PRIME算法的整个周期：

策略模型和 PRM 均使用 SFT 模型进行初始化。对于每次 RL 迭代，策略模型首先生成输出。然后，通过隐式 PRM 和结果验证器对输出进行评分，并使用输出结果奖励更新隐式 PRM。最后将结果奖励ro和过程奖励rp结合起来更新策略模型。

下面是该算法的伪代码：

实验

默认情况下，隐式 PRM 使用 SFT 模型进行初始化，并且 SFT 模型保留作为参考对数检测器。超参数方面，策略模型的学习率固定为5e-7，PRM学习率为1e-6，使用AdamW优化器，mini size为256，micro size为8。

该阶段收集了 256 个提示，并对每个提示采样了 4 个响应。 PRM训练时β=0.05，所有实验中KL系数均设置为0。

与仅使用结果验证器 (OV) 的 PRIME 和 RLOO 相比，PRIME 将 RL 训练速度提高了 2.5 倍，并将最终奖励提高了 6.9%，与稀疏奖励相比，方差更低。在下游任务上，PRIME的表现始终优于OV。

下面说明PRM在线更新的重要性。比较两个设置：使用 Eurus-2-7B-SFT 初始化的在线 PRM，使用 - 初始化的离线 PRM。

从下图可以看出，在线PRM在训练集和测试集上的表现都比离线PRM好很多。

参考：

本站候鸟号已成立3年，主要围绕财经资讯类，分享日常的保险、基金、期货、理财、股票等资讯，帮助您成为一个优秀的财经爱好者。本站温馨提示：股市有风险，入市需谨慎。

标签：RL训练 · 数据收集与清理

暂无评论

发表评论取消回复

要发表评论，您必须先登录。