首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

英伟达推出开源AI框架Polar,Codex性能提升近600%

发布日期:2026-05-28 来源:php.cn作者:php.cn浏览:3

英伟达推出开源 AI 框架 Polar

  英伟达研究团队近期推出了一款全新的开源 AI 框架 —— Polar。该框架的核心目标是赋能现有智能体系统(例如 Codex、Claude Code、Qwen Code),使其能够无缝集成一种名为广义相对策略优化(GRPO)的强化学习训练范式,同时完全保留其原有的工具调用机制、上下文组织逻辑以及补丁提交流程。这一设计极大增强了代码智能体的实际能力与泛化表现。

GRPO:面向复杂任务的强化学习优化方法

  GRPO 是一种面向强化学习的先进策略优化方法,它利用稀疏或稠密的奖励信号动态调整模型行为策略,特别适用于需要多步推理与连续决策的复杂任务场景。在本项目中,GRPO 被专门应用于代码智能体的端到端训练过程,使模型能在真实的工具交互链路(如 API 调用、编辑器操作、Git 提交等)中持续自我迭代与优化。

智能体强化学习的新挑战

  当前,智能体的强化学习正加速从简单单步响应向长周期、高耦合的任务演进,典型场景包括完整代码仓库维护、跨页面浏览器自动化、操作系统级指令执行等。这类任务高度依赖已有执行框架,涵盖多轮对话、异构工具调度及动态上下文维护等多个环节。若强行将这些系统重构为标准 RL 环境接口,不仅工程成本极高,还极易造成关键反馈信号衰减甚至丢失。

Polar 的“边界嵌入”策略

  Polar 并未选择推倒重来,而是采用“边界嵌入”策略:将智能体逻辑部署于模型 API 接口层,不侵入原有框架内核,确保运行时行为零变更。它在执行框架与推理服务之间插入轻量级代理模块,支持多种请求协议与格式,并自动捕获执行轨迹、动作序列与结果反馈,进而转化为高质量训练样本。

架构优化与性能突破

  从整体架构看,Polar 集成了任务分发、会话编排与状态持久化等核心组件,通过对初始化加载、在线执行与后处理归档三个阶段的深度优化,显著提升了训练吞吐与资源利用率。实测数据显示,在 SWE-Bench Verified 基准测试中,接入 Polar + GRPO 的 Codex 智能体 pass@1 指标由原先的 3.8% 跃升至 26.4%,提升幅度高达 594.74%。

  不仅如此,该框架还在训练效率维度实现突破:整体训练耗时降低约 5.39 倍,GPU 平均使用率同步大幅提升,为下一代智能体的大规模高效训练提供了坚实底座。

英伟达Polar框架架构图

英伟达Polar框架架构图

划重点:

  • 英伟达正式开源 Polar 框架,助力 Codex 等主流代码智能体快速适配 GRPO 新训练范式。
  • Codex 在 SWE-Bench Verified 测试中 pass@1 分数暴涨 594.74%,验证方法有效性。
  • Polar 显著压缩训练周期、提升硬件利用率,推动智能体训练进入高性价比新阶段。
本文转载自php.cn, 作者:php.cn, 原文标题:《 英伟达推出开源AI框架Polar,Codex性能提升近600% 》, 原文链接: https://m.php.cn/faq/2551781.html。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅