通义实验室新算法FIPO:精准优化关键Token 提升大模型推理能力

通义实验室新算法FIPO：精准优化关键Token提升大模型推理能力

　　阿里巴巴通义实验室智能计算团队在强化学习领域取得新突破，其研发的FIPO算法通过精准调控关键Token训练信号，成功提升大模型推理能力。该研究成果已发表于学术论文《Future-KL Influenced Policy Optimization》，相关代码与模型同步开源。

　　研究团队在分析强化学习微调模型时发现，训练前后超过98%的Token输出分布几乎保持不变，仅有极少数位置发生显著变化。这些关键位置集中出现在推理链的逻辑决策节点，形成“稀疏但关键”的独特现象。研究人员指出，强化学习并非全面重构模型能力，而是通过调整少量关键Token引导模型形成更稳定的推理路径。

　　传统评估指标如熵值和KL散度仅能反映分布变化幅度，却无法判断变化方向。为此，团队创新性地引入符号对数概率差（ $ \Delta \log p $）作为分析工具，该指标可精准捕捉强化学习对特定Token的“鼓励”或“抑制”作用。实验表明，通过替换 $ \Delta \log p $识别的关键Token，仅需调整极少量Token即可恢复模型推理性能，效果显著优于传统筛选方法。

　　在长推理链研究中，团队观察到模型存在“自我误导”现象：约3%的推理过程中，模型在得出正确结论后仍继续推导，最终导致错误答案。相比之下，真正产生突破性理解的“顿悟时刻”仅占1%。这种现象源于传统强化学习算法在奖励分配时存在缺陷，GRPO等典型算法会将最终正确答案的奖励均匀分配至整个推理链，使模型难以定位关键推理步骤。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号

隐私协议

用户协议