智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


长程多轮交互越来越成为 LLM Agent 解决复杂问题的关键能力。为缓解由此带来的长上下文问题,很多研究开始引入 Agent Memory。
现有的主流方法是外置记忆库 + RAG 检索,按相似度从历史中召回片段再拼接进 Prompt。
这种方式存在一个核心问题:检索“相似”不等于“对任务最关键”,难以与任务目标做端到端联合优化,最终让记忆管理停留在被动流水线,而非模型的内生能力。
也有一些工作尝试用 RL 来改进 Agent 能力,但落到“记忆”上仍相对有限:要么把记忆管理做成独立的工具/组件,没有与回答/推理的策略共同优化;要么将记忆融入推理流程,却缺少针对记忆质量的显式目标,训练信号仍主要来自最终任务回报。
长程交互下奖励稀疏,信用分配困难,模型很难学清楚“到底是哪一步的记忆写得好/坏”在影响最终成败,导致记忆容易冗余、遗漏关键信息。
因此,MemPO 的核心目标是:不仅要“用 RL 训练 Agent”,还需要为记忆本身设计可学习、可归因的优化信号,让模型在交互过程中主动压缩、组织并保留最有助于任务完成的信息。

MemPO 采用 Multi-turn RL,Rollout 采样阶段,模型与外界进行多轮交互,每一轮交互模型都会生成历史上下文的 Memory。
优势计算时,MemPO 采用两类优势估计相结合的方式来得到最终结果。
用以衡量轨迹整体的准确性,使用答案准确性和格式准确性来进行奖励计算:

此部分的优势估计可以表示为:

用以衡量每一段生成的 Memory 内保留了多少对于解决问题有效的信息。
其奖励计算通过已知 Memory 内容的情况下,生成最终正确答案的后验概率来表示:

其中,后验概率具体由正确答案 Token 概率的几何平均表示:

此部分的优势估计可以表示为:

这样,模型在训练的过程中就可以通过奖励的反馈情况来学习什么样的 Memory 内容是对于解决最终问题更加有效的,这样就大大缓解了 Memory 内容的不可控性和盲目性。
最终,整体的优势估计可以表示为:


在多目标的 web search 数据集上,与基础的 ReAct、Agentic-RL 模型以及基于 RAG/RL 的 Memory 算法相比,MemPO 均取得了显著的 SOTA 性能,其中 Token 消耗降低为 ReAct 的 1/3,性能提升 3 倍。

MemPO 在提升样例正确答案条件概率的同时,显著增加了预测结果的准确率。在复杂的长程交互任务上,MemPO 显著提升了交互轮次与正确答案条件概率。

正确答案条件概率分桶样本数量分布(Ratio)/准确率(ACC)

交互轮次分桶样本数量分布(Ratio)/正确答案条件概率(Probability)
随着任务复杂度提升(Objective Number),MemPO 相比 GRPO 展现出更明显的优势。
在实验中发现,较为简单的任务需要更丰富的上下文信息,而在更为复杂的长程交互任务上,更多的历史交互上下文信息反而带来更多的干扰信息,导致性能下降。

消融分析— MemPO vs. GRPO (左) / Inference 历史上下文填充策略(右)

MemPO 将 Memory 变成了可训练的策略变量,与模型的 Think 与、Action 进行联合优化。
通过把“写记忆”纳入强化学习的信用分配链路,MemPO 解决了长程交互里的难点——让模型知道哪些中间信息值得占用上下文预算、哪些噪声应该被主动丢弃。
最终使得上下文更短但信息密度更高,工具调用与回答更不容易跑偏,同时获得成本下降与性能上升的双重收益。
这也意味着,未来长程 Agent Memory 的关注点可能从“如何更好地检索历史”转向“能否用学习机制持续产出高质量、可控的内生记忆”。
