首页
智算服务
AI 生态大厅
算力商情政策资讯合作与生态场景方案关于我们

通义实验室新算法FIPO:精准优化关键Token 提升大模型推理能力

发布日期:2026-04-08 来源:搜狐网作者:搜狐网浏览:1

通义实验室新算法FIPO:精准优化关键Token提升大模型推理能力

  阿里巴巴通义实验室智能计算团队在强化学习领域取得新突破,其研发的FIPO算法通过精准调控关键Token训练信号,成功提升大模型推理能力。该研究成果已发表于学术论文《Future-KL Influenced Policy Optimization》,相关代码与模型同步开源。

  研究团队在分析强化学习微调模型时发现,训练前后超过98%的Token输出分布几乎保持不变,仅有极少数位置发生显著变化。这些关键位置集中出现在推理链的逻辑决策节点,形成“稀疏但关键”的独特现象。研究人员指出,强化学习并非全面重构模型能力,而是通过调整少量关键Token引导模型形成更稳定的推理路径。

  传统评估指标如熵值和KL散度仅能反映分布变化幅度,却无法判断变化方向。为此,团队创新性地引入符号对数概率差( $ \Delta \log p $)作为分析工具,该指标可精准捕捉强化学习对特定Token的“鼓励”或“抑制”作用。实验表明,通过替换 $ \Delta \log p $识别的关键Token,仅需调整极少量Token即可恢复模型推理性能,效果显著优于传统筛选方法。

  在长推理链研究中,团队观察到模型存在“自我误导”现象:约3%的推理过程中,模型在得出正确结论后仍继续推导,最终导致错误答案。相比之下,真正产生突破性理解的“顿悟时刻”仅占1%。这种现象源于传统强化学习算法在奖励分配时存在缺陷,GRPO等典型算法会将最终正确答案的奖励均匀分配至整个推理链,使模型难以定位关键推理步骤。

本文转载自搜狐网, 作者:搜狐网, 原文标题:《 通义实验室新算法FIPO:精准优化关键Token 提升大模型推理能力 》, 原文链接: https://m.sohu.com/a/1006540606_362225。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐