MemPO(Self-Memory Policy Optimization)提出了一种让大语言模型(LLM)在长程多轮交互中自主管理记忆的新方法,以解决上下文膨胀、Token成本高和性能下降等问题。不同于依赖外置记忆库和被动检索的现有方案,MemPO将记忆生成纳入强化学习框架,通过引入Memory-level的优势估计——结合全局轨迹优势和基于有效信息含量的记忆优势——引导模型主动保留对任务目标最有用的信息。实验表明,MemPO在长程任务上相较基线模型F1最高提升25.98%,相较当前最优方法提升7.1%,同时Token使用量减少超67%。该方法实现了记忆内容与任务目标的端到端联合优化,使上下文更短、信息密度更高,显著提升Agent的稳定性与效率。