智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


众所周知,随着计算量的增加,GPT-5.2 等人工智能模型在基准测试中的表现会得到提升。这种现象被称为“缩放定律”,即 AI 的经验法则指出准确性与计算能力成正比。
但是,与 OpenAI、Google 等公司带来的其他因素(例如更好的算法或不同的数据)相比,计算能力的影响究竟有多大?
为了找到答案,麻省理工学院的研究人员 Matthias Mertens 及其同事检查了 809 个大型语言模型 AI 程序的数据。他们估算了每个基准测试的性能中有多少归因于用于训练模型的计算量。
然后,他们将这一数字与可能归因于公司独特的工程或算法创新的量进行了比较,他们称之为“秘密配方”,这种配方有时(但并非总是)会被披露。他们还比较了整个开发者社区的 AI 总体改进情况,以及持续改进模型性能的共享技巧。
他们的研究结果发表在论文《大型语言模型开发中是否存在“秘密配方”?》中,该论文已发布在 arXiv 预印本服务器上。
正如 Mertens 团队提出的问题:“AI 进步的前沿是由规模——在更多计算量上训练的更大模型——推动的?还是由公开传播的算法创新形式的技术进步所推动,这些创新提升了整个领域的性能?
“或者,领先企业是否拥有真正的‘秘密配方’——能够产生超越规模和共享算法进步的持续优势的专有技术?”
剧透警告:确实存在秘密配方,但其重要性远不及仅仅拥有更大的计算机。
Mertens及其团队找到了所有四种有益进展的证据:更多的计算、独门秘诀、通用工业进展,以及特定大型语言模型(LLM)家族的改进。
但迄今为止最大的不同在于OpenAI等公司砸进去的算力有多大。
前沿LLM的进展主要由训练计算量的增加驱动,大家共有的算法进步或各家的独门技术贡献仅占一小部分。
他们总结说,也就是说最好的模型还是靠算力砸出来的规模效应。
所以,要是没法持续搞到快速扩张的算力,想保持AI前沿的领先地位基本没戏。
“这说明算力获取是AI领导力的关键,也解释了为啥大家现在都在疯狂投资算力设施。”
具体来说,他们发现算力每翻10倍,模型的基准测试准确率都会有看得见的提升。
排名前5%的模型使用的计算量是第5百分位模型的1321倍,
他们说,这意味着在基准测试中比95%的模型表现更好的模型所使用的计算量是性能最差的模型的1000倍以上。算力差距真大。
要注意的是,Mertens及其团队比较了开源模型(如DeepSeek AI的模型,他们能仔细查看)与专有模型(如OpenAI的GPT-5.2,闭源,很难评估)。
他们靠第三方估算来补全GPT和谷歌的Gemini等专有模型的信息,这些模型都在论文最后的"方法"部分讨论过并引用了来源。
研究没直接说算力花了多少钱,但能猜到成本越来越贵。
从其他行业研究我们知道,要搞大AI,芯片和网络设备成本都在涨。
华尔街券商伯恩斯坦研究公司这周发布报告说,2025年芯片制造商(包括GPU老大英伟达,AI发展全靠它)的收入说明价格全面大涨。
伯恩斯坦芯片分析师斯泰西·拉斯贡援引行业领先数据提供商世界半导体贸易统计的数据写道,在新冠疫情导致芯片销售下滑之后,行业销售额终于恢复到了2019年的水平。
但2025年的平均芯片价格比2019年高出70%,拉斯贡因此指出:“过去几年的收入增长仍主要由定价驱动。”他提到,芯片价格整体大幅上涨,比如英伟达GPU的溢价,还有大型语言模型依赖的美光科技和三星的DRAM内存芯片,价格也涨了两位数百分比,我之前就提过。
简而言之,为每个前沿AI模型打造下一代大型计算机需要更多资金,因为所需的新型芯片价格持续上涨。即使英伟达每款新Blackwell或Rubin GPU比上一代更高效(这是英伟达经常强调的),公司在开发下一个前沿模型时仍需购买足够数量的芯片来增加它们可用的总计算能力。
这解释了为何Alphabet的谷歌、Meta Platforms、微软等公司每年投入数千亿美元的资本投资,也说明了为何OpenAI CEO萨姆·奥尔特曼正在筹集几百亿美元的资金,还计划花掉超过一万亿美元。
该研究带来的好消息是,成本并非完全主导因素,工程(设计)还是能有所作为。
尽管计算能力在前沿大型语言模型中占据主导地位,但更智能的算法——也就是软件——方面的技术进步,长期来看也能帮着降低成本。
作者发现,通常计算预算较低的小型模型开发者能够利用智能软件,在推理性能上追赶前沿模型。所谓推理,就是对已部署的AI模型做实际预测。
技术进步带来的最大影响其实不在最前沿,
Mertens团队写道。
在研究期间内,达到中等能力阈值所需的计算量下降了多达8000倍,这反映了算法上的共同进步、开发者特定技术以及模型特定创新的综合作用。
因此,大语言模型开发的秘诀不是死磕顶尖性能领先,而是把能力压缩到更小、更便宜的模型里。
那么,可以说,对于小公司而言,AI正变得更为智能——从用更少算力实现同等结果的意义上讲。在计算领域,"智能"的一个有效定义就是"用更少的资源做更多的事"。
这一切都证实,目前AI世界是分化的。为了获得越来越高的智能,就得给
