智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


京公网安备11010602202532号 英伟达研究团队近期推出了一款全新的开源 AI 框架 —— Polar。该框架的核心目标是赋能现有智能体系统(例如 Codex、Claude Code、Qwen Code),使其能够无缝集成一种名为广义相对策略优化(GRPO)的强化学习训练范式,同时完全保留其原有的工具调用机制、上下文组织逻辑以及补丁提交流程。这一设计极大增强了代码智能体的实际能力与泛化表现。
GRPO 是一种面向强化学习的先进策略优化方法,它利用稀疏或稠密的奖励信号动态调整模型行为策略,特别适用于需要多步推理与连续决策的复杂任务场景。在本项目中,GRPO 被专门应用于代码智能体的端到端训练过程,使模型能在真实的工具交互链路(如 API 调用、编辑器操作、Git 提交等)中持续自我迭代与优化。
当前,智能体的强化学习正加速从简单单步响应向长周期、高耦合的任务演进,典型场景包括完整代码仓库维护、跨页面浏览器自动化、操作系统级指令执行等。这类任务高度依赖已有执行框架,涵盖多轮对话、异构工具调度及动态上下文维护等多个环节。若强行将这些系统重构为标准 RL 环境接口,不仅工程成本极高,还极易造成关键反馈信号衰减甚至丢失。
Polar 并未选择推倒重来,而是采用“边界嵌入”策略:将智能体逻辑部署于模型 API 接口层,不侵入原有框架内核,确保运行时行为零变更。它在执行框架与推理服务之间插入轻量级代理模块,支持多种请求协议与格式,并自动捕获执行轨迹、动作序列与结果反馈,进而转化为高质量训练样本。
从整体架构看,Polar 集成了任务分发、会话编排与状态持久化等核心组件,通过对初始化加载、在线执行与后处理归档三个阶段的深度优化,显著提升了训练吞吐与资源利用率。实测数据显示,在 SWE-Bench Verified 基准测试中,接入 Polar + GRPO 的 Codex 智能体 pass@1 指标由原先的 3.8% 跃升至 26.4%,提升幅度高达 594.74%。
不仅如此,该框架还在训练效率维度实现突破:整体训练耗时降低约 5.39 倍,GPU 平均使用率同步大幅提升,为下一代智能体的大规模高效训练提供了坚实底座。
英伟达Polar框架架构图
