智算多多



自2025年以来,强化学习(RL)逐渐成为了大语言模型(LLM)后训练(Post-training)阶段的默认范式。大量研究与实践表明:不依赖海量人工标注,仅靠RL就能激发出模型令人惊叹的复杂推理和长思维链(Long-CoT)能力,甚至赋予了模型达成超人类表现的潜力。
然而,尽管强化学习范式提供了极高的理论上限,许多研究者和开发者在复现RL训练时却遭遇了现实的问题:如果直接把一个普通的基座模型扔给强化学习算法,由于缺乏方向性的引导,RL算法往往会像个无头苍蝇一样乱撞,在有限的步数内根本探索不出正确的推理路径。
为了解决这个问题,目前的标准做法是:在RL之前,先用少量的优质数据进行监督微调(SFT),给模型做一个「冷启动(Cold-start)」热身,以此提高RL阶段的效率。
但这又引出了一个极具争议的新问题:冷启动SFT到底要训练到什么程度?SFT的分数越高,后续的RL效果就一定越好吗?
近期,来自香港科技大学、阿里巴巴以及厦门大学的研究团队,联合发表了一项已被ICLR 2026接收的重磅研究。他们首次揭示了SFT冷启动阶段的一个「致命陷阱」——冷启后表现最好的Checkpoint,往往并不对应最大的强化学习潜力。
研究团队指出,想要模型最终在后训练整体效果达到最佳,SFT冷启阶段就不应过度追求测试集准确率,而必须兼顾准确率与多样性(Diversity)。基于此,团队提出了一种全新的自适应早停损失函数(AESL),为大模型的RL训练打造了最完美的起跑线。
目前,该论文的代码已全面开源。
论文标题:GETTING YOUR LLMS READY FOR REINFORCEMENT LEARNING WITH LIGHTWEIGHT SFT
代码主页:https://github.com/LXXXXR/AESL
在传统认知里,SFT的目标是让模型完美模仿训练数据。损失(Loss)越低、准确率越高,说明学得越好。但研究团队发现了一个极度反直觉的现象:把SFT阶段评估性能最好的Checkpoint拿去跑RL,最终成绩往往不是最好的,甚至会倒退!
研究人员指出,这主要是因为「作为RL冷启动的SFT」与「单纯的SFT」在核心目标上存在根本分歧。
在以往只依靠SFT的后训练范式中,目的是尽可能多地从数据集中学习,且数据集往往充足且丰富,因此传统的交叉熵(CE)损失完美契合这一目标。