大模型持续学习的真相:很多方法,从一开始就找错了方向

以下是这一定义的五个核心维度：

通用能力的保留
持续学习的基石挑战是“灾难性遗忘”。当模型接触稀疏新数据时，必须确保其原有的语言能力、指令遵循和逻辑推理不发生退化。

顺序学习而非多任务并行
目前我们通过混合大规模数据来规避分布偏移，但这并非真正的学习。真正的持续学习应当像现实世界一样，能够从依次出现的数据流中提取表征。

应对分布偏移
如果新旧数据分布几乎一致，持续学习将变得毫无挑战。真正的考验在于，当模型遇到与其训练分布完全不同的任务时，是否依然能稳健地吸收知识。

极致的效率
如果拥有无限的计算资源和数据，内化新知识是平庸的。持续学习的本质在于效率——我们不能为了记住昨天与用户的一段对话，就去重新训练数万亿个 Token。

跨阶段的技能组合
这是最高级的要求：模型不仅要记住 A 和 B，还要能将在不同时间点习得的技能进行“化学反应”。例如，先学编程，后学逻辑，模型应能自发组合出更强的代码推理能力。

为什么必须是“参数化”的持续学习？

很多人认为，通过 RAG（检索增强生成）或外部脚手架（如 Markdown 文件、向量库）就能解决记忆问题，何必非要动模型的权重？但我认为，权重内的参数化学习有两大不可替代的优势：

规模化增长（Scaling）：外部挂载的知识库会遭遇“上下文腐烂”和检索瓶颈。随着技能树的增长，外部方案往往边际递减。而参数化知识能从底层改变每一跳推理的“智力密度”，让模型越学越聪明，而非越学越臃肿。

自动化组合（Automaticity）：神经记忆允许知识进行超高效的自动重组。这种“直觉式”的跨领域联想是检索无法企及的。就像学习编程能自动增强非代码领域的逻辑感一样，这种深层表征的进化才是真正的进化。

未竟的思考

实现这一目标仍面临重重迷雾：

知识覆写：当新旧知识冲突时（如软件库版本更新），模型该如何权衡？

数据效率：参数化学习目前的样本效率远低于上下文学习，合成数据的质量将成为关键瓶颈。

认知核心：我们是否应该剥离百科全书式的记忆，只训练一个极其擅长使用外部工具的“认知核心”？

持续学习不仅是技术挑战，更是通往通用人工智能（AGI）的必经之路。我们正在与 Prime Intellect 合作开发一套全新的评估方法，试图真正量化这些理想特性。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号

隐私协议

用户协议

核心愿景：