我们还能做些什么来打破数据墙?
近日,清华大学UIUC等机构的研究人员提出了PRIME():通过隐性奖励进行过程强化。
地址:
这是一个带有过程奖励的在线 RL 开源解决方案,可以超越 SFT(监督微调)或蒸馏等方法来提高语言模型的推理能力。
与SFT相比,PRIME让模型在重要的基准测试中实现了巨大的改进:平均提高了16.7%,在AMC和AIME中均提高了20%以上。
Eurus-2-7B-PRIME和Qwen2.5-Math-7B-使用相同的基础模型(Qwen-2.5-Math-7B),但在上表的6个测试中,有5个超出版本。它还超越了 GPT-4o。
这个结果只使用了Qwen Math的数据资源(230K SFT + 150K RL)的1/10!
作者已公开本研究中使用的所有模型和数据。有兴趣的读者请查看文章末尾的链接。
过程奖励模型
预热阶段 (SFT)
如前所述,选择 Qwen2.5-Math-7B-Base 作为起点,然后使用竞赛级别的数学和编程基准提高难度,包括 AIME 2024、AMC、MATH-500、Math 和 (v2 )。
首先对基础模型进行监督微调,以获得 RL 的入门模型(教模型学习某些推理模式)。
为此,研究人员设计了一个以动作为中心的链式推理框架,其中策略模型在每一步选择 7 个动作中的一个,并在执行每个动作后停止。
为了构建 SFT 数据集,研究人员从多个开源数据集中收集了推理指令。
值得注意的是,对于很多有真实答案的数据集,作者选择保留它们用于后期的 RL 训练,目的是让 SFT 和 RL 使用不同的数据集来使 RL 中的探索多样化,并且作者认为真实标签是在PL中更重要。
作者使用LLaMA-3.1-70B-来回答指令,并使用系统提示要求模型执行以行动为中心的思维链。
隐式PRM
接下来,访问过程奖励模型 (PRM)。这里使用隐式PRM,只需要在响应级别标签上训练ORM。
过程奖励模型的简单理解就是对每个推理步骤进行评分。例如:
PRM 以此粒度评估响应。
在本文的隐式PRM中,可以使用以下方法免费获得流程奖励:
只需收集响应级别数据并训练 ORM 即可获得 PRM,无需注释步骤标签。
这与ORM训练目标的具体选择无关。例如,使用交叉熵损失来实例化隐式PRM可以替换为:
强化学习
本文的目标是广泛使用强化学习(RL)来提高推理能力。针对这种资源有限的情况,作者总结了一些最佳实践:
从真相验证器和高质量数据开始:作者进行了严格的数据收集和清理,以获得可验证的 RL 数据,并发现仅使用生成的验证器就足以构建强大的基线。作者比较了不同的强化学习算法,得出的结论是,类似价值无关模型的方法足够有效。使用“中”问题进行稳定训练:作者提出了一种称为在线提示过滤器的机制,通过过滤掉困难和简单的问题,在很大程度上稳定了 RL 训练。使用 PRM 强化学习
将 PRM 集成到在线强化学习中并非易事,有几个关键挑战需要解决。
如何为强化学习提供强化奖励?
奖励稀疏性一直是强化学习中长期存在的问题。到目前为止,我们仍然没有一个特别好的解决方案来为 LLM 的在线强化学习构建密集奖励。
以往的方法主要是构建密集奖励的附加价值模型。众所周知,这样的模型很难训练,并且对性能提升不大。
根据之前对隐式PRM的介绍,使用
可以通过隐式PRM免费获得代币级别的流程奖励。
该方法可以直接替代PPO中的价值模型,并且很容易与任何优势估计函数和结果奖励相结合。在实践中,作者将过程奖励与 RLOO、GRPO、ReMax 和 PPO 进行了较小的修改集成。
如何设置一个好的PRM来启动RL?
即使我们找到一种在 RL 中使用过程奖励的方法,训练一个好的 PRM 也并非易事:需要收集大规模(过程)奖励数据(昂贵),并且模型应该在泛化和分布转移平衡之间取得良好的结果。
隐式 PRM 本质上是一种语言模型。所以理论上任何语言模型都可以作为PRM。在实践中,作者发现原来的政策模型本身就是一个不错的选择。
如何在线更新PRM以防止奖励被盗?
在在线强化学习中,避免 RM 过度优化或被黑客攻击至关重要,这需要 RM 与策略模型一起不断更新。然而,考虑到步骤标签的成本很高,在 RL 训练期间很难更新 PRM——可扩展性和泛化问题。
然而,我们的隐式 PRM 仅需要更新结果标签。也就是说,可以在训练期间使用结果验证器轻松更新 PRM。
此外,双重转发是可能的:首先用策略部署更新PRM,然后使用更新的PRM重新计算过程奖励,从而提供更准确的奖励估计。
PRIME算法
下图表示了PRIME算法的整个周期:
策略模型和 PRM 均使用 SFT 模型进行初始化。对于每次 RL 迭代,策略模型首先生成输出。然后,通过隐式 PRM 和结果验证器对输出进行评分,并使用输出结果奖励更新隐式 PRM。最后将结果奖励ro和过程奖励rp结合起来更新策略模型。
下面是该算法的伪代码:
实验
默认情况下,隐式 PRM 使用 SFT 模型进行初始化,并且 SFT 模型保留作为参考对数检测器。超参数方面,策略模型的学习率固定为5e-7,PRM学习率为1e-6,使用AdamW优化器,mini size为256,micro size为8。
该阶段收集了 256 个提示,并对每个提示采样了 4 个响应。 PRM训练时β=0.05,所有实验中KL系数均设置为0。
与仅使用结果验证器 (OV) 的 PRIME 和 RLOO 相比,PRIME 将 RL 训练速度提高了 2.5 倍,并将最终奖励提高了 6.9%,与稀疏奖励相比,方差更低。在下游任务上,PRIME的表现始终优于OV。
下面说明PRM在线更新的重要性。比较两个设置:使用 Eurus-2-7B-SFT 初始化的在线 PRM,使用 - 初始化的离线 PRM。
从下图可以看出,在线PRM在训练集和测试集上的表现都比离线PRM好很多。
参考:
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论