核心愿景:
我们追求的是让 LLM 在顺序接触到分布迥异的新数据时,能够高效且具组合性地习得新能力,同时至少完整保留其通用能力。
以下是这一定义的五个核心维度:
- 通用能力的保留
持续学习的基石挑战是“灾难性遗忘”。当模型接触稀疏新数据时,必须确保其原有的语言能力、指令遵循和逻辑推理不发生退化。
- 顺序学习而非多任务并行
目前我们通过混合大规模数据来规避分布偏移,但这并非真正的学习。真正的持续学习应当像现实世界一样,能够从依次出现的数据流中提取表征。
- 应对分布偏移
如果新旧数据分布几乎一致,持续学习将变得毫无挑战。真正的考验在于,当模型遇到与其训练分布完全不同的任务时,是否依然能稳健地吸收知识。
- 极致的效率
如果拥有无限的计算资源和数据,内化新知识是平庸的。持续学习的本质在于效率——我们不能为了记住昨天与用户的一段对话,就去重新训练数万亿个 Token。
- 跨阶段的技能组合
这是最高级的要求:模型不仅要记住 A 和 B,还要能将在不同时间点习得的技能进行“化学反应”。例如,先学编程,后学逻辑,模型应能自发组合出更强的代码推理能力。
为什么必须是“参数化”的持续学习?
很多人认为,通过 RAG(检索增强生成)或外部脚手架(如 Markdown 文件、向量库)就能解决记忆问题,何必非要动模型的权重?但我认为,权重内的参数化学习有两大不可替代的优势:
- 规模化增长(Scaling):外部挂载的知识库会遭遇“上下文腐烂”和检索瓶颈。随着技能树的增长,外部方案往往边际递减。而参数化知识能从底层改变每一跳推理的“智力密度”,让模型越学越聪明,而非越学越臃肿。
- 自动化组合(Automaticity):神经记忆允许知识进行超高效的自动重组。这种“直觉式”的跨领域联想是检索无法企及的。就像学习编程能自动增强非代码领域的逻辑感一样,这种深层表征的进化才是真正的进化。
未竟的思考
实现这一目标仍面临重重迷雾:
- 知识覆写:当新旧知识冲突时(如软件库版本更新),模型该如何权衡?
- 数据效率:参数化学习目前的样本效率远低于上下文学习,合成数据的质量将成为关键瓶颈。
- 认知核心:我们是否应该剥离百科全书式的记忆,只训练一个极其擅长使用外部工具的“认知核心”?
持续学习不仅是技术挑战,更是通往通用人工智能(AGI)的必经之路。我们正在与 Prime Intellect 合作开发一套全新的评估方法,试图真正量化这些理想特性。
x.com/carnot_cyclist/status/2041479655035679163
ref: arxiv.org/abs/2511.00318