当前位置: 首页 > 行业资讯 > 资讯详情

1/3 Token↓,3×性能↑:通义 × 清华用强化学习重做Agent Memory

发布日期：2026-04-12 来源：百家号作者：百家号浏览：3

核心痛点：长程 Agent 的“上下文膨胀”，以及现有记忆方案的“被动与不可控”

长程多轮交互越来越成为 LLM Agent 解决复杂问题的关键能力。为缓解由此带来的长上下文问题，很多研究开始引入 Agent Memory。

现有的主流方法是外置记忆库 + RAG 检索，按相似度从历史中召回片段再拼接进 Prompt。

这种方式存在一个核心问题：检索“相似”不等于“对任务最关键”，难以与任务目标做端到端联合优化，最终让记忆管理停留在被动流水线，而非模型的内生能力。

也有一些工作尝试用 RL 来改进 Agent 能力，但落到“记忆”上仍相对有限：要么把记忆管理做成独立的工具/组件，没有与回答/推理的策略共同优化；要么将记忆融入推理流程，却缺少针对记忆质量的显式目标，训练信号仍主要来自最终任务回报。

长程交互下奖励稀疏，信用分配困难，模型很难学清楚“到底是哪一步的记忆写得好/坏”在影响最终成败，导致记忆容易冗余、遗漏关键信息。

因此，MemPO 的核心目标是：不仅要“用 RL 训练 Agent”，还需要为记忆本身设计可学习、可归因的优化信号，让模型在交互过程中主动压缩、组织并保留最有助于任务完成的信息。

MemPO：引入 Memory-level 的优势估计，引导 Memory 保留有效信息

MemPO 采用 Multi-turn RL，Rollout 采样阶段，模型与外界进行多轮交互，每一轮交互模型都会生成历史上下文的 Memory。

优势计算时，MemPO 采用两类优势估计相结合的方式来得到最终结果。

Advantages of Global Trajectory

用以衡量轨迹整体的准确性，使用答案准确性和格式准确性来进行奖励计算：

此部分的优势估计可以表示为：

Advantages of Informative Memory

用以衡量每一段生成的 Memory 内保留了多少对于解决问题有效的信息。

其奖励计算通过已知 Memory 内容的情况下，生成最终正确答案的后验概率来表示：

其中，后验概率具体由正确答案 Token 概率的几何平均表示：

此部分的优势估计可以表示为：

这样，模型在训练的过程中就可以通过奖励的反馈情况来学习什么样的 Memory 内容是对于解决最终问题更加有效的，这样就大大缓解了 Memory 内容的不可控性和盲目性。

最终，整体的优势估计可以表示为：

实验结果

在多目标的 web search 数据集上，与基础的 ReAct、Agentic-RL 模型以及基于 RAG/RL 的 Memory 算法相比，MemPO 均取得了显著的 SOTA 性能，其中 Token 消耗降低为 ReAct 的 1/3，性能提升 3 倍。

主实验结果

MemPO 在提升样例正确答案条件概率的同时，显著增加了预测结果的准确率。在复杂的长程交互任务上，MemPO 显著提升了交互轮次与正确答案条件概率。

正确答案条件概率分桶样本数量分布（Ratio）/准确率（ACC）

交互轮次分桶样本数量分布（Ratio）/正确答案条件概率（Probability）

随着任务复杂度提升（Objective Number），MemPO 相比 GRPO 展现出更明显的优势。

在实验中发现，较为简单的任务需要更丰富的上下文信息，而在更为复杂的长程交互任务上，更多的历史交互上下文信息反而带来更多的干扰信息，导致性能下降。

消融分析— MemPO vs. GRPO (左) / Inference 历史上下文填充策略（右）

总结

MemPO 将 Memory 变成了可训练的策略变量，与模型的 Think 与、Action 进行联合优化。

通过把“写记忆”纳入强化学习的信用分配链路，MemPO 解决了长程交互里的难点——让模型知道哪些中间信息值得占用上下文预算、哪些噪声应该被主动丢弃。

最终使得上下文更短但信息密度更高，工具调用与回答更不容易跑偏，同时获得成本下降与性能上升的双重收益。

这也意味着，未来长程 Agent Memory 的关注点可能从“如何更好地检索历史”转向“能否用学习机制持续产出高质量、可控的内生记忆”。

本文转载自百家号，作者：百家号，原文标题：《 1/3 Token↓,3×性能↑:通义 × 清华用强化学习重做Agent Memory 》，原文链接： https://baijiahao.baidu.com/s?id=1862204349586905681&wfr=spider&for=pc。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号