当前位置: 首页 > 行业资讯 > 资讯详情

深度丨从GPU到系统全栈,AI算力价值重心正向CPU迁移

发布日期：2026-04-01 来源：新浪网作者：新浪网

CPU回归C位，从配角到调度中枢

　　Agentic AI的出现，彻底颠覆了AI的工作模式。

　　一个典型的Agent任务，往往包含数十次网络搜索、API调用、代码执行、文档解析与结果编排，这些工作负载的特性，早已超出了GPU的并行优势范畴。

　　在Agent的工作流中，GPU依然负责核心的token生成，而CPU承担起了[让token真正发挥作用]的重任。

　　这意味着，用户感知到的AI响应速度与使用体验，不再由GPU的算力上限决定，而是被CPU的处理效率牢牢卡住。

　　哪怕GPU能在毫秒级完成token生成，只要CPU的任务编排、工具执行出现延迟，整个系统的端到端体验就会被无限拉长。

　　行业终于意识到，在Agentic AI时代，单纯堆砌GPU已经解决不了根本问题。

　　康奈尔大学研究显示，在五大代表性Agent工作负载中，CPU端的工具处理、逻辑调度、数据预处理环节，占总端到端延迟的比例达到43.8%—90.6%，远高于GPU端的模型推理占比。

　　在最常用的Haystack RAG场景中，CPU处理甚至占据了总延迟的90%以上，GPU的推理计算仅占不到10%。

　　当百万级Agent并发运行时，对CPU核心数的需求呈现指数级增长。

　　云厂商的实测数据显示，同样1万张A100 GPU卡组成的集群，要想将GPU利用率打满，配套的CPU核心数需要从传统的50万颗提升至120万颗。

　　当算力规模上来之后，问题变成如何调度、分配和提高利用率，这正是CPU和系统层发挥作用的地方。

算力的消耗主体变了，价值标准随之改变

　　当算力资源极其稀缺时，最重要的是[谁有GPU]。

　　IDC的调研数据也显示，即使是头部互联网企业的AI推理集群，GPU平均利用率也长期低于40%，大量中小企业的GPU集群利用率甚至不足15%。

　　造成这种巨大浪费的核心原因是整个系统的数据流动、任务调度、内存管理能力，跟不上GPU的计算速度。

　　就像一辆顶级的超跑，在拥堵的城市道路上，根本无法发挥出最高时，而CPU正是这条道路的设计者与交通调度员。

　　MLPerf的行业基准测试显示，在大模型训练场景中，数据加载、预处理、参数同步的延迟，可占用总训练时间的35%-60%，这直接导致GPU利用率不足40%。

　　GPU算力的天花板往往是由CPU的性能决定的，这种调度与管理的核心价值，在分布式AI集群中体现得更加明显。

　　CXL（Compute Express Link）技术的普及，进一步强化了CPU的核心地位。

　　作为新一代高速互联协议，CXL通过内存池化技术，将分散在不同服务器、不同加速卡上的内存资源，整合成一个统一的共享内存池，彻底打破了传统架构的内存墙瓶颈。

　　而CPU正是整个CXL内存池的唯一主控单元，负责内存地址的统一映射、缓存一致性的维护、资源的动态分配。

　　实测数据显示，基于CXL 3.0的内存池化架构，跨节点内存访问延迟从传统NUMA架构的220ns降至90ns，内存带宽利用率从65%提升至92%，缓存未命中率从18%降至6%。

通用算力底座，才是AI泛化的关键

　　实体行业的AI应用几乎都是[混合负载]场景，金融机构的服务器，既要跑核心交易系统、数据库、风控中间件，又要跑用户画像的向量检索。

　　制造企业的产线服务器，既要跑工业控制软件、设备管理系统，又要跑产品质检的计算机视觉模型。

　　政务系统的服务器，既要跑政务服务平台、数据共享系统，又要跑智能问答、公文审核的大模型应用。

　　这些场景中，用户最核心的诉求，不是单独部署一套AI算力集群，而是在现有的业务系统上，无缝融合AI能力，这正是CPU的核心优势所在。

　　GPU的架构设计天然面向并行计算，很难同时高效处理数据库、中间件等串行的通用业务负载，强行混合部署只会导致两者的性能都大幅下降。

　　而CPU的通用架构，天生就能适配各类业务负载与AI负载的混合运行，实现一套硬件、统一运维、统一调度，大幅降低企业的部署成本与运维复杂度。

　　云厂商的自研CPU，已经在这类场景中验证了巨大的价值。

　　AWS Graviton4处理器，在搜索、广告、推荐等主流在线AI应用场景中，性能相比前代提升35%-50%，相比同规格的x86实例，性价比提升30%-50%。

　　目前，全球已有超10万家企业将其核心的在线AI推理业务迁移到Graviton实例上，其中既包括Epic Games这样的互联网企业，也包括SAP、IBM等企业级服务商。

　　阿里云的倚天710处理器，基于ARM v9架构与SVE2指令集，针对AI推理场景优化后，推理性能最高可提升2倍。

　　国内的自主可控CPU，更是借助这一趋势，实现了AI场景的快速突破。

　　与此同时，CPU自身的AI能力已经实现了质的飞跃，彻底打破了[CPU不适合AI]的固有认知。

　　过去，CPU的AI计算依赖通用核心的矢量运算，性能与GPU差距巨大。

　　但现在，主流的服务器CPU都已经集成了专门的AI加速单元，通过专用指令集与硬件加速引擎，实现了AI性能的跨越式提升。

CPU为核，GPU为翼，带来的产业变革

AI原生的CPU架构，将成为下一代服务器芯片的核心竞争点。

　　过去的CPU设计，核心目标是通用计算性能的提升，AI加速只是附加功能。

　　未来的CPU设计，会从架构层面就针对AI负载进行原生优化。

　　CPU的竞争，将从单纯的核数、主频比拼，升级为AI全场景综合能力的较量。

端云协同的统一算力架构，CPU将成为AI泛化的核心底座。

　　当下的AI算力，端侧、边缘侧、云侧往往采用不同的架构，模型开发、适配、部署的成本极高。

　　这也是AWS、阿里云、华为等云厂商，都大力投入自研Arm架构CPU的核心原因。

在AI原生的CPU赛道上，全球厂商都处于同一起跑线，国内厂商在场景理解、客户需求适配、国产化生态上，有着天然的优势。

　　鲲鹏、海光等厂商，已经在AI场景实现了技术突破，未来随着AI在千行百业的落地，国产CPU有望从[替代者]，成长为AI算力市场的核心玩家，构建起自主可控的AI算力全栈体系。

全栈软件生态的竞争，将成为CPU厂商的核心护城河。

　　CPU的AI性能能不能充分发挥，很大程度上取决于软件生态的完善度，包括对TensorFlow、PyTorch、飞桨等主流AI框架的深度适配。

　　对主流大模型的量化、压缩优化，对行业场景的算子定制，对开发工具链的完善。

　　未来，各大CPU厂商都会在软件生态上加大投入，构建从硬件到框架、从模型到场景的全栈AI软件体系，这将成为决定市场格局的关键。

CPU行业的指令集竞争，出现了新的轴线。

　　x86阵营与Arm阵营，将围绕Agentic工作负载展开新一轮的角逐。

　　Agent调用的绝大多数工具在x86架构上完成了几十年的优化，这种生态惯性是x86最大的护城河。

　　Arm阵营的核心竞争力是极致的功耗效率，NVIDIA Vera/Grace、AWS Graviton、Ampere等Arm架构CPU，在同等功耗下能实现更高的并发处理能力，与Agentic工作负载轻线程的特性高度契合。

结尾

　　市场的反应，永远是产业变革最真实的注脚。

　　如今，CPU已经从曾经的标准化商品组件，变成了能显著影响AI系统性能的差异化产品。

　　AI算力的核心问题已经从性能转向效率，GPU依然是AI的发动机，但CPU和系统层，正在成为方向盘和变速器。

本文转载自新浪网，作者：新浪网，原文标题：《深度丨从GPU到系统全栈,AI算力价值重心正向CPU迁移》，原文链接： http://k.sina.com.cn/article_7879848900_1d5acf3c401902vwpk.html。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号