强化学习(RL)范式虽然显著提升了大语言模型(LLM)在复杂任务中的表现,但其在实际应用中仍面临传统RL框架下固有的探索难题。
一个普遍存在的现象是:在训练过程中,模型的熵值迅速下降,推理路径趋于固化,导致“利用(exploitation)”远超“探索(exploration)”,严重失衡。
这种过早收敛不仅削弱了模型的多样性生成能力,也限制了其性能上限的进一步突破。
受OpenAI经典论文《First Return, Then Explore》中“先返回,再探索”思想的启发,来自字节跳动、MAP,曼彻斯特大学的联合团队提出了一种全新的结构化探索框架:First Return, Entropy-Eliciting Explore(FR3E)。
该方法通过识别推理轨迹中具有高不确定性的关键token,并以此为锚点引导后续的多样化展开,系统性地重建了LLM在强化学习中的探索机制,旨在实现利用与探索之间的动态平衡,从而释放RL训练的更高潜力。
值得一提的是,FR3E发布后,《First Return, Then Explore》的作者之一Jeff Clune还在X(原 Twitter)上转发了这篇文章。
算法框架
FR3E的算法框架分为两个阶段:
第一阶段:First Return
在该阶段,模型对每条prompt进行多次rollout,自由探索可能的解题路径,并收集相应的轨迹及其奖励信号。
随后,采用拒绝采样(rejection sampling)策略过滤掉全正确的样本(避免对已掌握知识的重复学习),并针对剩余样本构建基准路径:对于存在部分正确结果的prompt,选取其中一条正确轨迹作为基准;
对于全部错误的prompt,则随机选取一条作为参考路径。
在此基础上,计算基准路径中每个token的生成熵,筛选出top-n个高熵token作为关键决策点。
这些关键点将整条轨迹划分为n+1个partial rollout。通过将原始prompt与前n个partial rollout依次拼接(最后一个包含答案的部分被排除),形成n+1个中间状态(state),初始状态即为原始prompt本身。
第二阶段:Entropy-Eliciting Explore
基于构建的多状态prompt组,FR3E在GRPO++(融合了拒绝采样与Clip-Higher机制的GRPO变体)的基础上,进一步引入动态优势调制机制,以更精细地调控学习信号。具体而言,通过引入了一个优势调制因子,它基于从上一个状态到当前状态的价值边际改善来缩放学习信号。
优势调制因子定义为:
调控后的Advantage定义为:
当
表示当前state prompt中的partial rollout部分对最终答案有正向影响,此时需要适当降低它的advantage,防止模型过早锁定当前推理路径,保留探索空间。
反之,当
则意味着当前state prompt中的partial rollout部分对思考过程没有或有负向影响,需要放大其优势信号,激励模型在该节点进行更积极的探索,以突破推理瓶颈。
在数据构建方面,团队采用双难度混合策略:低难度数据来自DeepScaler,用于稳定训练初期的收敛过程;
高难度数据则取自SimpleRL中难度等级为3–5的样本,旨在激发模型的深层推理能力。这种组合既保障了训练稳定性,又提供了足够的挑战性以推动能力跃迁。
实验结果
为全面评估FR3E的有效性,团队在多个权威数学推理基准上进行了实验,包括GSM8K、Math500、Minerva Math、Gaokao2023en、OlympiadBench、College Math以及AIME24。并在Qwen2.5-7B、Qwen2.5-Math-7B和Qwen2.5-32B三种模型上进行了评测。
实验结果表明,FR3E在多个基准上均显著优于强基线GRPO++,展现出更强的泛化与推理能力。
尤其值得注意的是,在训练动态分析中,FR3E展现出更持久的探索行为:其熵值衰减更缓慢,响应长度更长,特别是在Qwen2.5-Math-7B这类已微调模型上,成功突破了传统方法中熵值长期处于低位的“僵化”困境,实现了探索能力的再激活。
此外,通过对多次rollout结果的统计监控,团队发现FR3E显著提升了“全正确”轨迹的数量,同时大幅降低了“全错误”轨迹的比例。
这表明,原本仅能部分解出或完全失败的问题,在FR3E的训练机制下,逐步演化为稳定、完整的正确解答路径,真正实现了从“部分成功”到“全面突破”的跃迁。
综上所述,FR3E提出了一种新颖且高效的结构化探索范式,直面LLM在强化学习中“探索不足”的核心瓶颈。
通过“先返回、再探索”的两阶段设计,结合高熵锚点识别与动态优势调制机制,FR3E不仅有效延缓了模型的过早收敛,更显著提升了复杂推理任务中的性能上限。
实验充分验证了FR3E在多个数学推理基准上的优越性,尤其在提升探索多样性、增强长程推理稳定性方面表现突出。
更重要的是,该方法所体现的“结构化反馈 + 自适应调节”思想,具备良好的可扩展性。团队期待FR3E所倡导的探索机制,能够为未来大模型的强化学习训练提供新的范式参考。
论文地址:https://arxiv.org/pdf/2507.07017
文章来自于微信公众号“量子位”。