智算多多联系我们


关注我们

公众号

视频号
隐私协议用户协议
◎ 2025 北京智算多多科技有限公司版权所有京ICP备 2025150592号-1
通义实验室的研究团队发现了一个令人震惊的现象:在强化学习微调过程中,超过98%的Token几乎毫无变化,仅有极少数位置发生显著改变。这些关键位置往往对应推理链中的重要决策点,就像人类解题时的"灵光乍现"时刻。但更耐人寻味的是,团队还观察到了"Oops Moment"——模型明明已得出正确答案,却在后续步骤中自我推翻的错误现象。数据显示,"顿悟时刻"出现概率仅1%,而"自我误导"发生率高达3%。
这种"稀疏但关键"的特性,解释了为何传统训练方法效率低下。当算法无法区分哪些Token真正重要时,就像老师给学生批改作业时,对所有步骤都给予相同评价,自然难以培养出真正的解题高手。
FIPO算法的核心创新在于引入Future-KL机制,它像一位具有远见的导师,不仅能评估学生当前的表现,还能预见每个解题步骤对未来推理轨迹的影响。该机制通过计算单个Token对后续输出的累积偏移,实现了前所未有的"Token级信用分配"。
这种训练方式让AI学会了"谋全局"的思维方式——不是机械地追求每一步的正确,而是理解哪些步骤真正决定了最终成败。正如围棋高手不会计较一城一地的得失,而是关注那些影响全局胜负的关键落子。
人工智能的发展正从"蛮力计算"走向"精妙设计"。FIPO算法的突破告诉我们:有时候,改变世界不需要轰轰烈烈的革命,只需找准那几个真正关键的节点。当AI学会了"四两拨千斤"的智慧,距离真正的智能或许又近了一步。这不仅是技术的进步,更是对智能本质的深刻探索——毕竟,人类智慧的精华,不也往往凝结在那些关键的顿悟时刻吗?