大模型SFT后效果≠RL潜力!港科大、阿里提出自适应冷启动新范式

一个反直觉的真相：「好学生」反而跑不远？

自2025年以来，强化学习（RL）逐渐成为了大语言模型（LLM）后训练（Post-training）阶段的默认范式。大量研究与实践表明：不依赖海量人工标注，仅靠RL就能激发出模型令人惊叹的复杂推理和长思维链（Long-CoT）能力，甚至赋予了模型达成超人类表现的潜力。

然而，尽管强化学习范式提供了极高的理论上限，许多研究者和开发者在复现RL训练时却遭遇了现实的问题：如果直接把一个普通的基座模型扔给强化学习算法，由于缺乏方向性的引导，RL算法往往会像个无头苍蝇一样乱撞，在有限的步数内根本探索不出正确的推理路径。

为了解决这个问题，目前的标准做法是：在RL之前，先用少量的优质数据进行监督微调（SFT），给模型做一个「冷启动（Cold-start）」热身，以此提高RL阶段的效率。

但这又引出了一个极具争议的新问题：冷启动SFT到底要训练到什么程度？SFT的分数越高，后续的RL效果就一定越好吗？

近期，来自香港科技大学、阿里巴巴以及厦门大学的研究团队，联合发表了一项已被ICLR 2026接收的重磅研究。他们首次揭示了SFT冷启动阶段的一个「致命陷阱」——冷启后表现最好的Checkpoint，往往并不对应最大的强化学习潜力。

研究团队指出，想要模型最终在后训练整体效果达到最佳，SFT冷启阶段就不应过度追求测试集准确率，而必须兼顾准确率与多样性（Diversity）。基于此，团队提出了一种全新的自适应早停损失函数（AESL），为大模型的RL训练打造了最完美的起跑线。

目前，该论文的代码已全面开源。

为什么会「南辕北辙」？

在传统认知里，SFT的目标是让模型完美模仿训练数据。损失（Loss）越低、准确率越高，说明学得越好。但研究团队发现了一个极度反直觉的现象：把SFT阶段评估性能最好的Checkpoint拿去跑RL，最终成绩往往不是最好的，甚至会倒退！

研究人员指出，这主要是因为「作为RL冷启动的SFT」与「单纯的SFT」在核心目标上存在根本分歧。

在以往只依靠SFT的后训练范式中，目的是尽可能多地从数据集中学习，且数据集往往充足且丰富，因此传统的交叉熵（CE）损失完美契合这一目标。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号

隐私协议

用户协议