智算多多联系我们


关注我们

公众号

视频号
隐私协议用户协议
◎ 2025 北京智算多多科技有限公司版权所有京ICP备 2025150592号-1
阿里巴巴通义实验室智能计算团队在强化学习领域取得新突破,其研发的FIPO算法通过精准调控关键Token训练信号,成功提升大模型推理能力。该研究成果已发表于学术论文《Future-KL Influenced Policy Optimization》,相关代码与模型同步开源。
研究团队在分析强化学习微调模型时发现,训练前后超过98%的Token输出分布几乎保持不变,仅有极少数位置发生显著变化。这些关键位置集中出现在推理链的逻辑决策节点,形成“稀疏但关键”的独特现象。研究人员指出,强化学习并非全面重构模型能力,而是通过调整少量关键Token引导模型形成更稳定的推理路径。
传统评估指标如熵值和KL散度仅能反映分布变化幅度,却无法判断变化方向。为此,团队创新性地引入符号对数概率差( $ \Delta \log p $)作为分析工具,该指标可精准捕捉强化学习对特定Token的“鼓励”或“抑制”作用。实验表明,通过替换 $ \Delta \log p $识别的关键Token,仅需调整极少量Token即可恢复模型推理性能,效果显著优于传统筛选方法。
在长推理链研究中,团队观察到模型存在“自我误导”现象:约3%的推理过程中,模型在得出正确结论后仍继续推导,最终导致错误答案。相比之下,真正产生突破性理解的“顿悟时刻”仅占1%。这种现象源于传统强化学习算法在奖励分配时存在缺陷,GRPO等典型算法会将最终正确答案的奖励均匀分配至整个推理链,使模型难以定位关键推理步骤。