英伟达推出开源AI框架Polar，Codex性能提升近600%

英伟达推出开源 AI 框架 Polar

英伟达研究团队近期推出了一款全新的开源 AI 框架 —— Polar。该框架的核心目标是赋能现有智能体系统（例如 Codex、Claude Code、Qwen Code），使其能够无缝集成一种名为广义相对策略优化（GRPO）的强化学习训练范式，同时完全保留其原有的工具调用机制、上下文组织逻辑以及补丁提交流程。这一设计极大增强了代码智能体的实际能力与泛化表现。

GRPO：面向复杂任务的强化学习优化方法

GRPO 是一种面向强化学习的先进策略优化方法，它利用稀疏或稠密的奖励信号动态调整模型行为策略，特别适用于需要多步推理与连续决策的复杂任务场景。在本项目中，GRPO 被专门应用于代码智能体的端到端训练过程，使模型能在真实的工具交互链路（如 API 调用、编辑器操作、Git 提交等）中持续自我迭代与优化。

智能体强化学习的新挑战

当前，智能体的强化学习正加速从简单单步响应向长周期、高耦合的任务演进，典型场景包括完整代码仓库维护、跨页面浏览器自动化、操作系统级指令执行等。这类任务高度依赖已有执行框架，涵盖多轮对话、异构工具调度及动态上下文维护等多个环节。若强行将这些系统重构为标准 RL 环境接口，不仅工程成本极高，还极易造成关键反馈信号衰减甚至丢失。

Polar 的“边界嵌入”策略

Polar 并未选择推倒重来，而是采用“边界嵌入”策略：将智能体逻辑部署于模型 API 接口层，不侵入原有框架内核，确保运行时行为零变更。它在执行框架与推理服务之间插入轻量级代理模块，支持多种请求协议与格式，并自动捕获执行轨迹、动作序列与结果反馈，进而转化为高质量训练样本。

架构优化与性能突破

从整体架构看，Polar 集成了任务分发、会话编排与状态持久化等核心组件，通过对初始化加载、在线执行与后处理归档三个阶段的深度优化，显著提升了训练吞吐与资源利用率。实测数据显示，在 SWE-Bench Verified 基准测试中，接入 Polar + GRPO 的 Codex 智能体 pass@1 指标由原先的 3.8% 跃升至 26.4%，提升幅度高达 594.74%。