首页
智算服务
AI 生态大厅
算力商情政策资讯合作与生态场景方案关于我们

大模型SFT后效果≠RL潜力!港科大、阿里提出自适应冷启动新范式

发布日期:2026-04-07 来源:百家号作者:百家号浏览:1

一个反直觉的真相:「好学生」反而跑不远?

  自2025年以来,强化学习(RL)逐渐成为了大语言模型(LLM)后训练(Post-training)阶段的默认范式。大量研究与实践表明:不依赖海量人工标注,仅靠RL就能激发出模型令人惊叹的复杂推理和长思维链(Long-CoT)能力,甚至赋予了模型达成超人类表现的潜力。

  然而,尽管强化学习范式提供了极高的理论上限,许多研究者和开发者在复现RL训练时却遭遇了现实的问题:如果直接把一个普通的基座模型扔给强化学习算法,由于缺乏方向性的引导,RL算法往往会像个无头苍蝇一样乱撞,在有限的步数内根本探索不出正确的推理路径。

  为了解决这个问题,目前的标准做法是:在RL之前,先用少量的优质数据进行监督微调(SFT),给模型做一个「冷启动(Cold-start)」热身,以此提高RL阶段的效率。

  但这又引出了一个极具争议的新问题:冷启动SFT到底要训练到什么程度?SFT的分数越高,后续的RL效果就一定越好吗?

  近期,来自香港科技大学、阿里巴巴以及厦门大学的研究团队,联合发表了一项已被ICLR 2026接收的重磅研究。他们首次揭示了SFT冷启动阶段的一个「致命陷阱」——冷启后表现最好的Checkpoint,往往并不对应最大的强化学习潜力。

  研究团队指出,想要模型最终在后训练整体效果达到最佳,SFT冷启阶段就不应过度追求测试集准确率,而必须兼顾准确率与多样性(Diversity)。基于此,团队提出了一种全新的自适应早停损失函数(AESL),为大模型的RL训练打造了最完美的起跑线。

  目前,该论文的代码已全面开源。

  论文标题:GETTING YOUR LLMS READY FOR REINFORCEMENT LEARNING WITH LIGHTWEIGHT SFT
  代码主页:https://github.com/LXXXXR/AESL

为什么会「南辕北辙」?

  在传统认知里,SFT的目标是让模型完美模仿训练数据。损失(Loss)越低、准确率越高,说明学得越好。但研究团队发现了一个极度反直觉的现象:把SFT阶段评估性能最好的Checkpoint拿去跑RL,最终成绩往往不是最好的,甚至会倒退!

  研究人员指出,这主要是因为「作为RL冷启动的SFT」与「单纯的SFT」在核心目标上存在根本分歧。

  在以往只依靠SFT的后训练范式中,目的是尽可能多地从数据集中学习,且数据集往往充足且丰富,因此传统的交叉熵(CE)损失完美契合这一目标。

本文转载自百家号, 作者:百家号, 原文标题:《 大模型SFT后效果≠RL潜力!港科大、阿里提出自适应冷启动新范式 》, 原文链接: https://baijiahao.baidu.com/s?id=1861788844575963567&wfr=spider&for=pc。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐