首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

深度丨从GPU到系统全栈,AI算力价值重心正向CPU迁移

发布日期:2026-04-01 来源:新浪网作者:新浪网

CPU回归C位,从配角到调度中枢

  Agentic AI的出现,彻底颠覆了AI的工作模式。

  一个典型的Agent任务,往往包含数十次网络搜索、API调用、代码执行、文档解析与结果编排,这些工作负载的特性,早已超出了GPU的并行优势范畴。

  在Agent的工作流中,GPU依然负责核心的token生成,而CPU承担起了[让token真正发挥作用]的重任。

  这意味着,用户感知到的AI响应速度与使用体验,不再由GPU的算力上限决定,而是被CPU的处理效率牢牢卡住。

  哪怕GPU能在毫秒级完成token生成,只要CPU的任务编排、工具执行出现延迟,整个系统的端到端体验就会被无限拉长。

  行业终于意识到,在Agentic AI时代,单纯堆砌GPU已经解决不了根本问题。

  康奈尔大学研究显示,在五大代表性Agent工作负载中,CPU端的工具处理、逻辑调度、数据预处理环节,占总端到端延迟的比例达到43.8%—90.6%,远高于GPU端的模型推理占比。

  在最常用的Haystack RAG场景中,CPU处理甚至占据了总延迟的90%以上,GPU的推理计算仅占不到10%。

  当百万级Agent并发运行时,对CPU核心数的需求呈现指数级增长。

  云厂商的实测数据显示,同样1万张A100 GPU卡组成的集群,要想将GPU利用率打满,配套的CPU核心数需要从传统的50万颗提升至120万颗。

  当算力规模上来之后,问题变成如何调度、分配和提高利用率,这正是CPU和系统层发挥作用的地方。

算力的消耗主体变了,价值标准随之改变

  当算力资源极其稀缺时,最重要的是[谁有GPU]。

  IDC的调研数据也显示,即使是头部互联网企业的AI推理集群,GPU平均利用率也长期低于40%,大量中小企业的GPU集群利用率甚至不足15%。

  造成这种巨大浪费的核心原因是整个系统的数据流动、任务调度、内存管理能力,跟不上GPU的计算速度。

  就像一辆顶级的超跑,在拥堵的城市道路上,根本无法发挥出最高时,而CPU正是这条道路的设计者与交通调度员。

  MLPerf的行业基准测试显示,在大模型训练场景中,数据加载、预处理、参数同步的延迟,可占用总训练时间的35%-60%,这直接导致GPU利用率不足40%。

  GPU算力的天花板往往是由CPU的性能决定的,这种调度与管理的核心价值,在分布式AI集群中体现得更加明显。

  CXL(Compute Express Link)技术的普及,进一步强化了CPU的核心地位。

  作为新一代高速互联协议,CXL通过内存池化技术,将分散在不同服务器、不同加速卡上的内存资源,整合成一个统一的共享内存池,彻底打破了传统架构的内存墙瓶颈。

  而CPU正是整个CXL内存池的唯一主控单元,负责内存地址的统一映射、缓存一致性的维护、资源的动态分配。

  实测数据显示,基于CXL 3.0的内存池化架构,跨节点内存访问延迟从传统NUMA架构的220ns降至90ns,内存带宽利用率从65%提升至92%,缓存未命中率从18%降至6%。

通用算力底座,才是AI泛化的关键

  实体行业的AI应用几乎都是[混合负载]场景,金融机构的服务器,既要跑核心交易系统、数据库、风控中间件,又要跑用户画像的向量检索。

  制造企业的产线服务器,既要跑工业控制软件、设备管理系统,又要跑产品质检的计算机视觉模型。

  政务系统的服务器,既要跑政务服务平台、数据共享系统,又要跑智能问答、公文审核的大模型应用。

  这些场景中,用户最核心的诉求,不是单独部署一套AI算力集群,而是在现有的业务系统上,无缝融合AI能力,这正是CPU的核心优势所在。

  GPU的架构设计天然面向并行计算,很难同时高效处理数据库、中间件等串行的通用业务负载,强行混合部署只会导致两者的性能都大幅下降。

  而CPU的通用架构,天生就能适配各类业务负载与AI负载的混合运行,实现一套硬件、统一运维、统一调度,大幅降低企业的部署成本与运维复杂度。

  云厂商的自研CPU,已经在这类场景中验证了巨大的价值。

  AWS Graviton4处理器,在搜索、广告、推荐等主流在线AI应用场景中,性能相比前代提升35%-50%,相比同规格的x86实例,性价比提升30%-50%。

  目前,全球已有超10万家企业将其核心的在线AI推理业务迁移到Graviton实例上,其中既包括Epic Games这样的互联网企业,也包括SAP、IBM等企业级服务商。

  阿里云的倚天710处理器,基于ARM v9架构与SVE2指令集,针对AI推理场景优化后,推理性能最高可提升2倍。

  国内的自主可控CPU,更是借助这一趋势,实现了AI场景的快速突破。

  与此同时,CPU自身的AI能力已经实现了质的飞跃,彻底打破了[CPU不适合AI]的固有认知。

  过去,CPU的AI计算依赖通用核心的矢量运算,性能与GPU差距巨大。

  但现在,主流的服务器CPU都已经集成了专门的AI加速单元,通过专用指令集与硬件加速引擎,实现了AI性能的跨越式提升。

CPU为核,GPU为翼,带来的产业变革

  1. AI原生的CPU架构,将成为下一代服务器芯片的核心竞争点。

  过去的CPU设计,核心目标是通用计算性能的提升,AI加速只是附加功能。

  未来的CPU设计,会从架构层面就针对AI负载进行原生优化。

  CPU的竞争,将从单纯的核数、主频比拼,升级为AI全场景综合能力的较量。

  1. 端云协同的统一算力架构,CPU将成为AI泛化的核心底座。

  当下的AI算力,端侧、边缘侧、云侧往往采用不同的架构,模型开发、适配、部署的成本极高。

  这也是AWS、阿里云、华为等云厂商,都大力投入自研Arm架构CPU的核心原因。

  1. 在AI原生的CPU赛道上,全球厂商都处于同一起跑线,国内厂商在场景理解、客户需求适配、国产化生态上,有着天然的优势。

  鲲鹏、海光等厂商,已经在AI场景实现了技术突破,未来随着AI在千行百业的落地,国产CPU有望从[替代者],成长为AI算力市场的核心玩家,构建起自主可控的AI算力全栈体系。

  1. 全栈软件生态的竞争,将成为CPU厂商的核心护城河。

  CPU的AI性能能不能充分发挥,很大程度上取决于软件生态的完善度,包括对TensorFlow、PyTorch、飞桨等主流AI框架的深度适配。

  对主流大模型的量化、压缩优化,对行业场景的算子定制,对开发工具链的完善。

  未来,各大CPU厂商都会在软件生态上加大投入,构建从硬件到框架、从模型到场景的全栈AI软件体系,这将成为决定市场格局的关键。

  1. CPU行业的指令集竞争,出现了新的轴线。

  x86阵营与Arm阵营,将围绕Agentic工作负载展开新一轮的角逐。

  Agent调用的绝大多数工具在x86架构上完成了几十年的优化,这种生态惯性是x86最大的护城河。

  Arm阵营的核心竞争力是极致的功耗效率,NVIDIA Vera/Grace、AWS Graviton、Ampere等Arm架构CPU,在同等功耗下能实现更高的并发处理能力,与Agentic工作负载轻线程的特性高度契合。

结尾

  市场的反应,永远是产业变革最真实的注脚。

  如今,CPU已经从曾经的标准化商品组件,变成了能显著影响AI系统性能的差异化产品。

  AI算力的核心问题已经从性能转向效率,GPU依然是AI的发动机,但CPU和系统层,正在成为方向盘和变速器。

本文转载自新浪网, 作者:新浪网, 原文标题:《 深度丨从GPU到系统全栈,AI算力价值重心正向CPU迁移 》, 原文链接: http://k.sina.com.cn/article_7879848900_1d5acf3c401902vwpk.html。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅