智算多多



研究团队在分析强化学习微调模型时发现,超过98%的 Token 输出分布在训练前后几乎保持不变,仅有极少数位置发生显著变化。这些关键位置集中出现在推理链的逻辑决策节点,形成“稀疏但关键”的独特现象。传统评估指标如熵值和 KL 散度,仅能反映分布变化幅度,无法判断变化方向。为此,团队创新性地引入符号对数概率差(Δlogp)作为分析工具,该指标可精准捕捉强化学习对特定 Token 的“鼓励”或“抑制”作用。实验表明,通过替换Δlogp识别的关键 Token,仅需调整极少量 Token 即可恢复模型推理性能,效果显著优于传统筛选方法。
在长推理链研究中,团队观察到模型存在“自我误导”现象:约3%的推理过程中,模型在得出正确结论后仍继续推导,最终导致错误答案。相比之下,真正产生突破性理解的“顿悟时刻”仅占1%。这种现象源于传统强化学习算法在奖励分配时存在缺陷,例如 GRPO 等算法会将最终正确答案的奖励均匀分配至整个推理链,使模型难以定位关键推理步骤。
针对上述问题,FIPO 算法引入 Future-KL 指标量化单个 Token 对后续推理轨迹的影响。该指标通过计算当前 Token 对后续输出概率分布的累积偏移,评估其“未来影响力”。训练过程中,算法对产生正向影响的 Token 提高权重,对产生负向影响的 Token 进行抑制,实现 Token 级别的精准信用分配。为确保训练稳定性,团队还设计了极端值过滤、软衰减窗口和影响力权重裁剪三重保障机制。
在 Qwen2.5-32B-Base 模型的纯强化学习实验中,FIPO 算法展现出显著优势。传统算法生成的推理链平均长度约4000 Token,而 FIPO 将这一数值提升至10000 Token 以上。在 AIME2024 数学测试基准上,模型准确率从基线算法 DAPO 的50.0%提升至58.0%。研究证实,通过细粒度的 Token 级信用分配机制,模型可在不依赖额外长推理数据的情况下持续扩展推理能力。
这项研究成果对于大模型推理能力的提升具有重要意义,也为未来人工智能领域的发展提供了新的思路。随着 FIPO 算法的开源,预计将有更多研究者参与到相关领域的研究中,推动大模型技术不断向前发展。