中国信通院何宝宏：大模型发展遭遇「数据墙」，行业亟须突破数据瓶颈

AI产业多维突破：从基础模型到具身智能

　　5月29日，2026证券市场年会行业分会数字经济大会在北京举行，主题为“智变：人工智能重构增长新范式”。中国信息通信研究院总工程师何宝宏分享了对AI产业发展的最新研判，并从基础模型、训练数据、算力、智能体、具身智能等多个维度进行了深入剖析。

基础模型能力显著跃升

　　从基础模型技术进展来看，何宝宏表示，过去一年无论是语言模型还是多模态模型，均取得了长足进步。据中国信通院评测，语言大模型能力一年间提升了约35%，多模态模型的能力提升幅度则超过50%。产业创新的重心正从语言模型向多模态迁移，多模态技术正在加速突破各种瓶颈。

数据墙成模型进阶瓶颈

　　在数据方面，何宝宏提出了一个引发广泛关注的判断：当前互联网上的模型预训练已经撞上了“数据墙”，数据已成为制约模型性能进一步提升的核心因素。他解释说，模型训练已将互联网上的公域数据消耗殆尽，几乎找不到新的数据源来有效拉升模型能力。

　　对于如何破解这一瓶颈，何宝宏给出了三条解决路径：

一是从公域走向私域，针对特定行业和场景的私域数据进行深度开发利用；

二是发展合成数据，通过传统算法及AI算法生成合成数据以辅助模型训练，但需注意控量使用；

三是提升数据质量，以先进的数据工程手段不断优化已有数据的品质，更好地服务于AI模型的进化。

算力格局加速演变

　　在算力方面，何宝宏指出多项趋势性变化，如推理算力占比正在快速提升，未来必将超过训练算力；国内算力资源“小散乱”，需要通过算力互联网建设实现全国算力一张网，促进闲置资源匹配；超节点能力持续提升，甚至太空算力也开始进入学术和产业界视野。

AI智能体框架初定，“驾驭工程”应运而生

　　在AI Agent（智能体）方面，何宝宏认为技术框架已初步确定，开源领域AI Agent整体呈现“一超三强”的竞争格局。他还提出了“驾驭工程”的概念，即给不确定性的系统内核（大模型/AI智能体）做“缰绳、护栏、仪表盘、驾驶舱和运行规则”的一整套工程方法论。

具身智能仍处早期阶段，面临三大挑战

　　谈及具身智能，何宝宏认为，目前大部分产品仍处于“特定场景、专用身体、人工遥控”阶段，部分领先产品已实现自主执行，但未来目标是实现泛化能力和通用身体。具身智能面临三大关键挑战：

高质量物理训练数据的缺失，真机数据太贵太少，合成数据、互联网数据质量则参差不齐；

模型泛化能力不足，一个场景训练出来的模型到另一个场景就不行了；

软硬协同问题，语言与行动对于指令的理解不一致，还存在反应指令的时间差问题，如大脑思维以秒为单位，行动以毫秒为单位，“想了半天动作早该做出去了，指令还没出来”。

“从智能体到具身智能，从世界模型到太空算力，AI技术正在多点突破、加速演进。”何宝宏表示，“正如大会主题所揭示的，智能经济的质变正在到来，而行业是否已做好准备，将决定这一轮增长新范式的深度与广度。”

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号