首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

【国金计算机&科技】算力供给、需求迎关键信号

发布日期:2026-04-06 来源:新浪网作者:新浪网浏览:1

算力供需正在发出关键信号

  截至2026年3月,中国AI大模型日均Token调用量已突破140万亿,较2024年初增长超千倍。这一数字背后,是真实商业化的持续深化:智谱MaaS平台API的ARR(年化经常性收入)约达17亿元人民币,过去12个月提升约60倍;2026年一季度,智谱API调用定价提升了83%,市场依然供不应求,调用量增长400%。海外端,Anthropic商业化同步高速增长。据披露,Anthropic年化收入已达140亿美元,同比增长14倍。

供给端:关键融资顺利,回报临近拐点

  OpenAI于2026年3月31日完成完成了最新一轮融资,募集资金达 1220 亿美元,投后估值达 8520 亿美元。本轮融资由OpenAI的战略合作伙伴亚马逊、英伟达和软银领投,长期合作伙伴微软也继续参与其中。

  3月31日华尔街见闻报道CoreWeave宣布已完成一笔85亿美元的延迟提款定期贷款融资,是全球首个获得投资级评级的高性能计算(HPC)基础设施融资工具,标志着GPU支撑的数据中心资产正式进入主流机构信贷市场。本次融资是CoreWeave近期一系列大规模资本运作的延续。公司披露,过去12个月内,其股权与债务融资承诺总额已累计达到约280亿美元。此次完成史上首个投资级GPU基础设施融资,不仅为公司提供了充足资本以支撑日益增长的客户需求,也将对同类AI基础设施资产的定价和评级体系产生示范效应,为整个行业的融资路径提供新的参照坐标。

  Oracle也宣布计划在2026年通过债务和股权融资筹集450亿至500亿美元,以扩大其人工智能数据中心的容量,服务于包括英伟达、Meta、OpenAI、AMD、TikTok和xAI在内的客户。

  从重资本投入走向现金流拐点:CoreWeave估算GPU资产可在2.5年内完全收回成本,这意味着从第三年开始,GPU 将产生纯现金流,目前其客户合同平均期限为4年,形成较强的现金流保护。早期重资本投入的算力租赁正迎来回报拐点。

价格端:租赁价上涨,算力紧缺已获印证

  据SemiAnalysis数据显示,英伟达H100 GPU的一年期租赁价格从2025年10月的每小时1.7美元飙升至2026年3月的2.35美元,涨幅接近40%,所有按需算力已全线售罄。更值得注意的是,部分H100合约已直接续签至2028年,Blackwell新集群的交付周期也延长到了6-7个月,这也从侧面印证了算力需求的旺盛。

国产替代:DeepSeek V4推理端或优先适配国产芯片

  据美国科技媒体The Information于2026年4月3日报道,DeepSeek新一代模型V4将运行于华为最新设计的芯片之上,预计在未来数周内正式发布。DeepSeek与华为和寒武纪科技密切合作,对V4基础代码库的大部分内容进行了修改。与行业在重大版本发布前的常规流程不同,DeepSeek 将美国芯片制造商排除在 V4 的早期准入之外。

  此事件的战略意义在于:若V4能以纯国产芯片在推理端完成大规模商业部署,将标志着中国AI算力自主替代完成关键验证,形成示范效应。国内算力产业链有望直接受益于模型厂商的国产化采购。

计算需求范式跃迁:从Chatbot到Agent

第一阶段:Chatbot——一问一答,算力消耗有限

  大模型应用的第一个阶段本质上是一个对话框。用户输入一段文字,模型返回一段回答。它只能回答问题,不能主动完成任务;它只能给建议,不能执行操作,这种模式的交互逻辑较为简单,每次交互消耗的Token数量有限。

第二阶段:低阶Agent——开始调用工具

  大模型应用进展的第二阶段,是模型扩展到可以调用工具的Agent:搜索网页、执行代码、查询数据库、调用外部API,而不仅仅是生成文字。低阶Agent虽具备工具调用能力,但受制于对静态预训练模型的依赖,普遍存在可靠性差、泛化能力不足、长期自主性弱等问题,关键节点等待人工确认。代表产品如:早期GitHub Copilot(代码补全)、配置了简单RAG的企业问答机器人。

  算力影响:每次工具调用都需要模型重新处理上下文,多轮交互叠加后,Token消耗显著高于纯Chatbot场景。据Anthropic实测数据,单Agent的Token消耗约为对话模式的4倍。

第三阶段:中阶Agent——自主规划,持续运行,更高的准确度和泛化能力

  这是当前AI正在进入的阶段,也是算力需求发生质变的核心驱动力。中阶Agent通过推理侧扩展在执行过程中动态生成思维链、对中间结果进行多次验证与自我纠偏,准确率和泛化能力都大幅提高,能接受一个模糊的高层目标("帮我重构这个代码库"、"写一份竞争对手分析报告"),然后自己拆解任务、规划步骤、调用工具、检查结果、遇到问题自行纠偏,像是一个能独立承担工作的初级员工。清华大学AGI-Next峰会上的行业共识认为:以对话为核心的"Chat"范式已告终结,AI竞争正式转向"能办事"的智能体时代。

  两个里程碑应用印证这一转变已成主流:

  • Claude Code:Anthropic推出的编程Agent,可以读取程序代码库、编辑文件、执行命令,并与开发工具集成。理解整个程序代码库,并可以跨多个文件和工具工作来完成任务。。SemiAnalysis指出目前,GitHub上4%的公开提交是由 Claude Code 编写的。根据当前趋势,预计到 2026 年底,Claude Code 将占所有每日提交的 20%以上。
  • OpenClaw:科创板日报2026年3月3日报道,发布仅四个多月的开源智能体项目OpenClaw创造了历史——以超过24.8万的GitHub星标数正式登顶星标榜,超越Linux成为GitHub平台上最受欢迎的开源项目。OpenClaw的爆炸性扩散,标志着长运行Agent从实验阶段进入大规模生产部署。

Agent驱动算力需求的原因

中阶Agent与Prefill:上下文长度的膨胀

  大模型推理的两个阶段:Prefill(预填充) 和 Decode(解码)。Prefill阶段并行处理所有输入Token,建立KV缓存,生成第一个输出Token;Decode阶段则逐Token自回归生成,都需要从KV缓存中读取历史状态。

  Chatbot的上下文天然较短:用户发一条消息,模型返回一段回答,一轮结束,上下文清零。中阶Agent则截然不同——它的上下文长度尤其是Prefill阶段在任务执行过程中持续膨胀,因为模型需要加载大量工具定义、系统提示词、中间结果等。

  例如在Manus中,平均输入与输出的token比例约为100:1。因为在接收用户输入后,Agent通过一系列工具使用链来完成任务。在每次迭代中,模型根据当前上下文从预定义的动作空间中选择一个动作。然后在环境中执行该动作(例如,Manus的虚拟机沙盒)以产生观察结果。动作和观察结果被附加到上下文中,形成下一次迭代的输入。这个循环持续进行,直到任务完成。随着每一步的推进,上下文不断增长,而输出通常是结构化的函数调用保持相对简短。这使得Agent相比Chatbot的预填充和解码比例高度倾斜。

长上下文对算力与存储的双重需求

  首先广为人知的基础理论是大模型自注意力机制的计算成本与上下文长度呈二次方关系。另一个瓶颈在于内存:解码阶段天然受制于内存带宽。行业研究机构Clarifai明确指出,解码阶段模型会从之前的步骤中检索缓存的键值对,并为每个token添加新的键值对,这意味着限制吞吐量的是内存带宽,而非计算能力。由于模型无法跨token并行处理,GPU 核心经常在等待内存读取时处于空闲状态,导致利用率不足。随着上下文窗口增长到 8K、16K 甚至更大,键值缓存(KV Cache)变得非常庞大,进一步加剧了这一瓶颈。

  从成本角度看,Token阶梯定价正是这种算力瓶颈的货币化表现。在当前许多大模型厂商都按上下文长度阶梯定价。

  例如2026 年初,谷歌发布的Gemini 3.1 Pro定价:

  • 输入token:每百万 2.00 美元(输入量 200K)。
  • 输出token:每百万 12.00 美元(输入 200K)。

  国内阿里云则更是对Qwen模型根据上下文长度分了0-32k,32-128k和128k以上三档定价。

多Agent通信:计算量指数级扩张的另一原因

  Agentic AI的另一个主流架构趋势是多Agent协作(Multi-Agent Systems)。Gartner报告显示,从2024年Q1到2025年Q2,多Agent系统的企业询盘量暴增1445%。

  月之暗面的Kimi k2.5模型就重点推出了Agent集群的能力,它能根据任务需求,现场调度多达 100 个分身,并行处理 1500个步骤。所有的角色分配与任务拆解,无需预设,全由 K2.5 现场决策。给 Kimi Agent集群投喂 40 篇关于心理学和 AI 的论文。Kimi 先是通过多次调用工具,按顺序把这 40 篇论文通读一遍,以此确保上下文里完整保留了所有必要信息。紧接着,它衍生出几个子agent,本质上是 Kimi 的「分身」,分别负责不同章节撰写。最后,主 agent 负责把关验收,将所有内容汇总生成了一份长达几十页的专业 PDF 综述。

  Multi-Agent架构在提升任务复杂度处理能力的同时,引入了新的算力消耗维度:Agent间通信。 Google DeepMind 研究团队在2025年12月发表的《Towards a Science of Scaling Agent Systems》中指出,多Agent系统存在固有的通信瓶颈:并行Agent之间必须将全局上下文压缩为Agent间消息传递,产生不可避免的协调税(coordination tax)。Anthropic实测数据显示,多Agent系统的Token消耗约为对话模式的15倍。

能力提升带动调用量持续增加:杰文斯悖论

  AI领域已出现明显的杰文斯悖论——随着模型推理效率的提升,反而刺激使用量以更快速度上升,最终推高总算力消耗。

微软CEO纳德拉就表示“随着人工智能变得更加高效和普及,我们将看到它的使用量呈爆炸式增长,使其成为一种我们永远都无法满足的商品。

  综合分析,我们认为Agent运行时长的增加是技术趋势的必然,在可见的未来,对内存带宽、互联吞吐与智能计算密度的需求,将持续以非线性速率扩张。轮算力基建的加速,是由一条清晰的因果链驱动的结构性通胀:Agent任务变复杂带来上下文长度增加→ KV Cache线性膨胀与解码阶段吞吐下降→多Agent协作的通信矩阵进一步放大需求规模→杰文斯悖论使单位推理成本下降反而提高总消耗增长→宏观算力资本开支将不断提高

投资建议

海外算力/存储:中际旭创、东山精密、胜宏科技、欧科亿、天孚通信、天岳先进、新易盛、工业富联、兆易创新、大普微、源杰科技、景旺电子、英维克、唯科科技、领益智造等;Lumentum、闪迪、铠侠、美光、SK海力士、中微公司、北方华创、拓荆科技、长川科技。

国内算力:寒武纪、东阳光、海光信息、利通电子、协创数据、网宿科技、华丰科技、亿田智能、豫能控股、星环科技、首都在线、神州数码、百度集团、中芯国际、华虹半导体、中科曙光、润泽科技、浪潮信息、大位科技、润建股份、奥飞数据、云赛智联、瑞晟智能、科华数据、潍柴重机、金山云、欧陆通、杰创智能。

CPU:海光信息、中科曙光、澜起科技、禾盛新材、中国长城、龙芯中科、兴森科技、深南电路、宏和科技、广合科技。

AI应用

  1. 大模型&自定义Agent:智谱、Minimax、腾讯控股、阿里巴巴、科大讯飞。
  2. 星环科技、德才股份、美年健康、中控技术等AI INFRA&高景气&高壁垒。其他:空天时代、具身智能等。

风险提示

  • 行业竞争加剧的风险:在信创等政策持续加码支持计算机行业发展的背景下,众多新兴玩家参与到市场竞争之中, 若市场竞争进一步加剧,竞争优势偏弱的企业或面临出清,某些中低端品类的毛利率或受到一定程度影响。
  • 技术研发进度不及预期的风险:计算机行业技术开发需投入大量资源,如果相关厂商新品研发进程不及预期,表观层面将呈现出投入产出在较长时期的滞后特征。
  • 特定行业下游资本开支周期性波动的风险:部分计算机公司系顺周期行业,下游资本开支波动与行业周期性相关性较强,或在个别年份对于上游软件厂商的营收表现产生扰动。
本文转载自新浪网, 作者:新浪网, 原文标题:《 【国金计算机&科技】算力供给、需求迎关键信号 》, 原文链接: http://k.sina.com.cn/article_5953190046_162d6789e06702x02s.html。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅