智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


2026年2月初,中国模型还只是OpenRouter平台的追赶者。当时美国模型占据平台前十大模型调用总量近七成,中国模型不到两成。转折来得很突然。
MiniMax于2月13日发布M2.5模型,上线不足一周便登顶调用量榜首。仅M2.5一款模型,就贡献了那一周平台总调用量增量的近一半。紧接着,月之暗面的Kimi K2.5、智谱GLM-5、DeepSeek V3.2相继发力,中国模型形成了集群式爆发。到3月底至4月初的最高峰,中国模型周调用量12.96万亿Token,是美国的4.27倍,全球前六全是国产。
但仔细看这轮爆发的结构,有一个细节耐人寻味:那段时间排名最靠前的Qwen3.6 Plus,有相当大比例来自免费额度用户。OpenRouter平台上,带"free"标签的Qwen3.6 Plus (free)单周曾贡献4.6万亿Token,是美国所有模型的总和。
免费调用量激增,能反映真实的模型竞争力吗?这个问题,在本周数据出来后变得无法回避。
大多数人以为这次逆转是周期性波动,但分析师指向了一个更具体的原因。
AI行业分析师胡延平在接受媒体采访时明确指出,上周美国AI大模型调用量回升,主要由Anthropic旗下Claude Sonnet和Opus模型拉动——这两款模型已成为编程(Coding)领域的"硬通货",而国产大模型在这方面的产品力仍需提升。
数据印证了这个判断。上周Claude Sonnet 4.6冲上全球榜首,周调用量1.38万亿Token,环比增长19%;Claude Opus 4.6位居第三,周调用量1.22万亿Token。两款模型合计占美国AI大模型周调用量逾五成。
与此形成对比的,是国产模型在编程场景的"过山车"表现。此前多次上榜的Kimi K2.5、智谱GLM系列,已连续三周未登榜;曾一度冲上榜单第二的阶跃星辰Step 3.5 Flash,近两周同样无缘榜单。
编程场景的逻辑和通用问答不同。开发者选择工具更理性、更挑剔,且用量稳定、复购率高。谁能在代码生成、调试、工程化交付上赢得开发者信任,谁就掌握了调用量最稳定的基本盘。Claude在这一场景的护城河,并非一两周能被追平。
这轮数据逆转背后,斯坦福大学4月13日刚刚发布的《2026年人工智能指数报告》提供了更宏观的注脚。
报告的核心判断是:中美头部模型性能差距继续收敛,AI竞争不再只是模型能力的单线比拼,而是逐步演化为模型、科研、产业、资本、算力和治理环境共同作用下的体系竞争。
从这个视角看,调用量的一周逆转,远不是全部故事。
中国模型在某些维度上的优势是真实的。以上下文长度为例,在10K-100K Token的任务里,MiniMax M2.5和DeepSeek V3.2是更多开发者的选择;在超过100K Token的超长上下文场景,MiniMax M2.5的优势更为明显。这些都是传统美国模型的弱项。
开源策略上,中国模型同样形成了反直觉的竞争优势。有数据显示,80%的美国AI初创公司正在使用中国开源模型——美国试图通过芯片管制构筑壁垒,中国却通过开源实现了更广泛的渗透。
但短板同样清晰。在响应速度上,PinchBench(专为AI编程工具设计的测评榜单)显示,国产模型除千问外,其余主要模型的速度排名均较为靠后。Kimi K2.5位于第20名,MiniMax M2.1是第23名。速度,对开发者来说是实实在在的体验差距,而非可以忽视的参数。
这轮调用量集体下滑,还有一个不容忽视的背景:算力涨价。
有媒体报道将这场逆转与"一轮席卷全球的算力涨价潮高度吻合"直接挂钩。在连续十周爆发式增长之后,全球AI大模型总调用量连续两周走低,从高峰期的27万亿Token回落至20.6万亿Token。
这个节点的出现有其必然性。免费额度驱动的调用量天花板已经触及,接下来要跑的,是真实付费意愿支撑的持续增长。智谱在GLM-5.1发布时已经以行动表态:定价提升10%,编码场景价格首次追平Anthropic。这是国产大模型第一次主动走出"低价换量"的路径。
智谱CEO张鹏此前解释得直接:"完成一个长程任务所需要的Token量可能是回答一个简单问题时的十倍甚至百倍,价格调整本质上是价值变化的自然结果。"
一季度智谱API调用定价提升83%,调用量却增长400%——这组数据说明,真正的市场需求远比免费量体现得更扎实。
单看OpenRouter的周榜,容易陷入"你追我赶"的短视逻辑。但中国AI的另一条战线,正在悄悄取得更结构性的进展。
新加坡政府重金打造的国家级大模型项目SEA-LION,2025年11月宣布弃用Meta的Llama架构,改用阿里通义千问作为新版旗舰基座模型。在最新的东南亚语言模型榜单上,千问在印尼语、马来语、泰语、越南语等排行榜上高居榜首。
这背后的逻辑,跟调用量排行榜无关。东南亚有超过1200种本地语言,西方模型在预训练阶段的东南亚语言词元覆盖严重不足——闹出过把委内瑞拉列为东盟成员国这类低级错误。千问以36万亿预训练词元、覆盖119种语言的规模,成为了这个场景下真正好用的选择。
这是"调用量"数字背后更难被直接观测到的东西:中国模型正在通过语言覆盖和开源策略,在全球范围内建立更广泛的基础设施级存在。
连涨十周之后的一次下跌,既不意味着"中国AI见顶",也不能掩盖真实存在的结构性短板——尤其是在编程这个对开发者来说最关键的场景。调用量的数字会继续波动,但竞争的底层逻辑正在变得越来越清晰:谁能在真实付费场景中赢得持续信任,谁才算站稳了。
这个答案,不会在周榜里读出来,需要往后再看几个月。
