智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


截至2026年3月,中国AI大模型日均Token调用量已突破140万亿,较2024年初增长超千倍。这一数字背后,是真实商业化的持续深化:智谱MaaS平台API的ARR(年化经常性收入)约达17亿元人民币,过去12个月提升约60倍;2026年一季度,智谱API调用定价提升了83%,市场依然供不应求,调用量增长400%。海外端,Anthropic商业化同步高速增长。据披露,Anthropic年化收入已达140亿美元,同比增长14倍。
OpenAI于2026年3月31日完成完成了最新一轮融资,募集资金达 1220 亿美元,投后估值达 8520 亿美元。本轮融资由OpenAI的战略合作伙伴亚马逊、英伟达和软银领投,长期合作伙伴微软也继续参与其中。
3月31日华尔街见闻报道CoreWeave宣布已完成一笔85亿美元的延迟提款定期贷款融资,是全球首个获得投资级评级的高性能计算(HPC)基础设施融资工具,标志着GPU支撑的数据中心资产正式进入主流机构信贷市场。本次融资是CoreWeave近期一系列大规模资本运作的延续。公司披露,过去12个月内,其股权与债务融资承诺总额已累计达到约280亿美元。此次完成史上首个投资级GPU基础设施融资,不仅为公司提供了充足资本以支撑日益增长的客户需求,也将对同类AI基础设施资产的定价和评级体系产生示范效应,为整个行业的融资路径提供新的参照坐标。
Oracle也宣布计划在2026年通过债务和股权融资筹集450亿至500亿美元,以扩大其人工智能数据中心的容量,服务于包括英伟达、Meta、OpenAI、AMD、TikTok和xAI在内的客户。
从重资本投入走向现金流拐点:CoreWeave估算GPU资产可在2.5年内完全收回成本,这意味着从第三年开始,GPU 将产生纯现金流,目前其客户合同平均期限为4年,形成较强的现金流保护。早期重资本投入的算力租赁正迎来回报拐点。
据SemiAnalysis数据显示,英伟达H100 GPU的一年期租赁价格从2025年10月的每小时1.7美元飙升至2026年3月的2.35美元,涨幅接近40%,所有按需算力已全线售罄。更值得注意的是,部分H100合约已直接续签至2028年,Blackwell新集群的交付周期也延长到了6-7个月,这也从侧面印证了算力需求的旺盛。
据美国科技媒体The Information于2026年4月3日报道,DeepSeek新一代模型V4将运行于华为最新设计的芯片之上,预计在未来数周内正式发布。DeepSeek与华为和寒武纪科技密切合作,对V4基础代码库的大部分内容进行了修改。与行业在重大版本发布前的常规流程不同,DeepSeek 将美国芯片制造商排除在 V4 的早期准入之外。
此事件的战略意义在于:若V4能以纯国产芯片在推理端完成大规模商业部署,将标志着中国AI算力自主替代完成关键验证,形成示范效应。国内算力产业链有望直接受益于模型厂商的国产化采购。
大模型应用的第一个阶段本质上是一个对话框。用户输入一段文字,模型返回一段回答。它只能回答问题,不能主动完成任务;它只能给建议,不能执行操作,这种模式的交互逻辑较为简单,每次交互消耗的Token数量有限。
大模型应用进展的第二阶段,是模型扩展到可以调用工具的Agent:搜索网页、执行代码、查询数据库、调用外部API,而不仅仅是生成文字。低阶Agent虽具备工具调用能力,但受制于对静态预训练模型的依赖,普遍存在可靠性差、泛化能力不足、长期自主性弱等问题,关键节点等待人工确认。代表产品如:早期GitHub Copilot(代码补全)、配置了简单RAG的企业问答机器人。
算力影响:每次工具调用都需要模型重新处理上下文,多轮交互叠加后,Token消耗显著高于纯Chatbot场景。据Anthropic实测数据,单Agent的Token消耗约为对话模式的4倍。
这是当前AI正在进入的阶段,也是算力需求发生质变的核心驱动力。中阶Agent通过推理侧扩展在执行过程中动态生成思维链、对中间结果进行多次验证与自我纠偏,准确率和泛化能力都大幅提高,能接受一个模糊的高层目标("帮我重构这个代码库"、"写一份竞争对手分析报告"),然后自己拆解任务、规划步骤、调用工具、检查结果、遇到问题自行纠偏,像是一个能独立承担工作的初级员工。清华大学AGI-Next峰会上的行业共识认为:以对话为核心的"Chat"范式已告终结,AI竞争正式转向"能办事"的智能体时代。
两个里程碑应用印证这一转变已成主流:
大模型推理的两个阶段:Prefill(预填充) 和 Decode(解码)。Prefill阶段并行处理所有输入Token,建立KV缓存,生成第一个输出Token;Decode阶段则逐Token自回归生成,都需要从KV缓存中读取历史状态。
Chatbot的上下文天然较短:用户发一条消息,模型返回一段回答,一轮结束,上下文清零。中阶Agent则截然不同——它的上下文长度尤其是Prefill阶段在任务执行过程中持续膨胀,因为模型需要加载大量工具定义、系统提示词、中间结果等。
例如在Manus中,平均输入与输出的token比例约为100:1。因为在接收用户输入后,Agent通过一系列工具使用链来完成任务。在每次迭代中,模型根据当前上下文从预定义的动作空间中选择一个动作。然后在环境中执行该动作(例如,Manus的虚拟机沙盒)以产生观察结果。动作和观察结果被附加到上下文中,形成下一次迭代的输入。这个循环持续进行,直到任务完成。随着每一步的推进,上下文不断增长,而输出通常是结构化的函数调用保持相对简短。这使得Agent相比Chatbot的预填充和解码比例高度倾斜。
首先广为人知的基础理论是大模型自注意力机制的计算成本与上下文长度呈二次方关系。另一个瓶颈在于内存:解码阶段天然受制于内存带宽。行业研究机构Clarifai明确指出,解码阶段模型会从之前的步骤中检索缓存的键值对,并为每个token添加新的键值对,这意味着限制吞吐量的是内存带宽,而非计算能力。由于模型无法跨token并行处理,GPU 核心经常在等待内存读取时处于空闲状态,导致利用率不足。随着上下文窗口增长到 8K、16K 甚至更大,键值缓存(KV Cache)变得非常庞大,进一步加剧了这一瓶颈。
从成本角度看,Token阶梯定价正是这种算力瓶颈的货币化表现。在当前许多大模型厂商都按上下文长度阶梯定价。
例如2026 年初,谷歌发布的Gemini 3.1 Pro定价:
国内阿里云则更是对Qwen模型根据上下文长度分了0-32k,32-128k和128k以上三档定价。
Agentic AI的另一个主流架构趋势是多Agent协作(Multi-Agent Systems)。Gartner报告显示,从2024年Q1到2025年Q2,多Agent系统的企业询盘量暴增1445%。
月之暗面的Kimi k2.5模型就重点推出了Agent集群的能力,它能根据任务需求,现场调度多达 100 个分身,并行处理 1500个步骤。所有的角色分配与任务拆解,无需预设,全由 K2.5 现场决策。给 Kimi Agent集群投喂 40 篇关于心理学和 AI 的论文。Kimi 先是通过多次调用工具,按顺序把这 40 篇论文通读一遍,以此确保上下文里完整保留了所有必要信息。紧接着,它衍生出几个子agent,本质上是 Kimi 的「分身」,分别负责不同章节撰写。最后,主 agent 负责把关验收,将所有内容汇总生成了一份长达几十页的专业 PDF 综述。
Multi-Agent架构在提升任务复杂度处理能力的同时,引入了新的算力消耗维度:Agent间通信。 Google DeepMind 研究团队在2025年12月发表的《Towards a Science of Scaling Agent Systems》中指出,多Agent系统存在固有的通信瓶颈:并行Agent之间必须将全局上下文压缩为Agent间消息传递,产生不可避免的协调税(coordination tax)。Anthropic实测数据显示,多Agent系统的Token消耗约为对话模式的15倍。
AI领域已出现明显的杰文斯悖论——随着模型推理效率的提升,反而刺激使用量以更快速度上升,最终推高总算力消耗。
微软CEO纳德拉就表示“随着人工智能变得更加高效和普及,我们将看到它的使用量呈爆炸式增长,使其成为一种我们永远都无法满足的商品。
综合分析,我们认为Agent运行时长的增加是技术趋势的必然,在可见的未来,对内存带宽、互联吞吐与智能计算密度的需求,将持续以非线性速率扩张。轮算力基建的加速,是由一条清晰的因果链驱动的结构性通胀:Agent任务变复杂带来上下文长度增加→ KV Cache线性膨胀与解码阶段吞吐下降→多Agent协作的通信矩阵进一步放大需求规模→杰文斯悖论使单位推理成本下降反而提高总消耗增长→宏观算力资本开支将不断提高
海外算力/存储:中际旭创、东山精密、胜宏科技、欧科亿、天孚通信、天岳先进、新易盛、工业富联、兆易创新、大普微、源杰科技、景旺电子、英维克、唯科科技、领益智造等;Lumentum、闪迪、铠侠、美光、SK海力士、中微公司、北方华创、拓荆科技、长川科技。
国内算力:寒武纪、东阳光、海光信息、利通电子、协创数据、网宿科技、华丰科技、亿田智能、豫能控股、星环科技、首都在线、神州数码、百度集团、中芯国际、华虹半导体、中科曙光、润泽科技、浪潮信息、大位科技、润建股份、奥飞数据、云赛智联、瑞晟智能、科华数据、潍柴重机、金山云、欧陆通、杰创智能。
CPU:海光信息、中科曙光、澜起科技、禾盛新材、中国长城、龙芯中科、兴森科技、深南电路、宏和科技、广合科技。
AI应用:
