通义实验室FIPO算法:精准优化Token,革新大模型推理能力

FIPO算法的核心机制：Token级精准调控

研究团队在分析强化学习微调模型时发现，超过98%的 Token 输出分布在训练前后几乎保持不变，仅有极少数位置发生显著变化。这些关键位置集中出现在推理链的逻辑决策节点，形成“稀疏但关键”的独特现象。传统评估指标如熵值和 KL 散度，仅能反映分布变化幅度，无法判断变化方向。为此，团队创新性地引入符号对数概率差（Δlogp）作为分析工具，该指标可精准捕捉强化学习对特定 Token 的“鼓励”或“抑制”作用。实验表明，通过替换Δlogp识别的关键 Token，仅需调整极少量 Token 即可恢复模型推理性能，效果显著优于传统筛选方法。

长推理链中的“自我误导”与FIPO的解决方案

在长推理链研究中，团队观察到模型存在“自我误导”现象：约3%的推理过程中，模型在得出正确结论后仍继续推导，最终导致错误答案。相比之下，真正产生突破性理解的“顿悟时刻”仅占1%。这种现象源于传统强化学习算法在奖励分配时存在缺陷，例如 GRPO 等算法会将最终正确答案的奖励均匀分配至整个推理链，使模型难以定位关键推理步骤。

针对上述问题，FIPO 算法引入 Future-KL 指标量化单个 Token 对后续推理轨迹的影响。该指标通过计算当前 Token 对后续输出概率分布的累积偏移，评估其“未来影响力”。训练过程中，算法对产生正向影响的 Token 提高权重，对产生负向影响的 Token 进行抑制，实现 Token 级别的精准信用分配。为确保训练稳定性，团队还设计了极端值过滤、软衰减窗口和影响力权重裁剪三重保障机制。

FIPO算法的实际应用效果

在 Qwen2.5-32B-Base 模型的纯强化学习实验中，FIPO 算法展现出显著优势。传统算法生成的推理链平均长度约4000 Token，而 FIPO 将这一数值提升至10000 Token 以上。在 AIME2024 数学测试基准上，模型准确率从基线算法 DAPO 的50.0%提升至58.0%。研究证实，通过细粒度的 Token 级信用分配机制，模型可在不依赖额外长推理数据的情况下持续扩展推理能力。

这项研究成果对于大模型推理能力的提升具有重要意义，也为未来人工智能领域的发展提供了新的思路。随着 FIPO 算法的开源，预计将有更多研究者参与到相关领域的研究中，推动大模型技术不断向前发展。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号

隐私协议

用户协议