当前位置: 首页 > 行业资讯 > 资讯详情

GPT-5.1上线，文心4.0登场，国产大模型为啥不慌

发布日期：2026-05-22 来源：工人日报/智东西作者：工人日报/智东西浏览：1

大模型全才：复杂文图生成、音视频理解、编程均能胜任

　　话不多说，先来一波实测展示。

　　智东西首先体验了文心一言4.0 Preview在单模态内容上的理解、生成能力。

　　智东西让文心一言4.0 Preview以日常物品的视角写一篇短篇故事，需包含该物品的诞生记忆、和主人的事件、最终归宿，其中的要求是不能出现物品本品。文心一言4.0 Preview写的短篇故事前后逻辑清晰、文笔流畅，指令中的关键细节进行了完整呈现，并且全文都是用第一人称，主人和主人女儿的人称表述也很准确。

　　当智东西询问“我觉得压力很大，需要一些放松的意见”，文心一言4.0 Preview的回复像一个温柔的心灵导师，其回复先进行了安慰，提到压力很大很正常并告诉我完全可以自主调节，之后才提出相应的方法，包括急救方法、长期策略以及调整思维，帮助我从根本上缓解压力。

　　文心一言4.0 Preview的旅游搭子人设也更加人性化，当智东西要求它帮忙推荐几个四川比较热闹的地方吃火锅。文心一言4.0 Preview不仅列出了热闹的景点、推荐了火锅店，还给出了每个火锅店的特点，有哪些招牌菜品、性价比、座位特点等等，最后还提醒我要提前取号，选择辣度时更谨慎。

　　然后是复杂元素图片生成，智东西的提示词为：通体发光的白色小鹿，鹿角缠绕淡粉樱花与银线。小鹿四蹄踏在漂浮的青绿色苔藓石块上，在清晨雾感森林，阳光透过树叶形成光斑，地面铺着落叶与白色小花，远处有溪流反光。

　　下面的图片从小鹿颜色、鹿角上的樱花、苔藓石块到地面、溪流的各处细节，文心一言4.0 Preview都进行了精准复现且整个画面和谐自然。

　　其次是视频理解能力，智东西上传了一分钟的七人英文对话视频，并询问文心一言4.0 Preview这七个人分别是谁并总结这段视频的核心观点。

　　文心一言4.0 Preview不仅准确罗列了视频中的七个人，还分别总结提炼了每个人的核心观点，以及对其观点进行了共同点和差异点分析。

　　视频理解方面，智东西上传了一条IMO国际数学奥林匹克竞赛最具挑战的第六题解析视频，并要求文心一言4.0 Preview在保留解题步骤细节的同时，说明视频中所示图片的对应关系。文心一言4.0 Preview输出的解题过程清晰，并且在每个步骤都对应视频中配图进行分析，还在输出内容末尾处专门对配图进行了总结说明。

　　电视剧情的视频分析是对全模态大模型的综合考量，其需要对剧情内容的时序、情节进行理解并同步进行推理。智东西上传了一段电影剧情，让文心一言4.0 Preview说明视频中的主人公正在经历什么、情绪变化如何、他为什么后面直接摔了手机。

　　文心一言4.0 Preview准确梳理了主人公的经历，并将对应的关键动作、情绪进行了加粗强调，随后结合视频的完整走向及主人公情感变化，综合分析了他扔掉手机的多种因素。

　　为了加大难度，智东西上传了一段包含两位厨师比拼厨艺的视频，且两位厨师的制作牛排步骤、解说穿插出现，要求文心一言4.0 Preview分析两位厨师各自的菜单及制作过程，并生成可以复刻的菜单及制作牛排过程。

　　文心一言4.0 Preview一下子就罗列了出来，将两位厨师的食材选择、处理步骤进行了清晰呈现，还通过表格总结了两位在牛排选择、处理方式、调味等方面的不同，基于此为家庭制作牛排提供了步骤参考及关键小技巧总结。

　　文心一言4.0 Preview的代码能力也实现了升级，文心一言4.0 Preview用HTML构建了一个网站，展示太阳系3D模拟。其生成的页面3D动态效果丝滑，并且还有交互功能支持调整速度、进行缩放等。

原生全模态大模型登场，拿下全球第二、国内第一

　　基准测试结果，文心一言4.0 Preview在语言、视觉理解、音频理解、视觉生成上超过多款国内外主流模型，尤其在创意写作、事实性智能体规划与工具应用等方面表现较好。

　　在语言方面，文心一言4.0 Preview在知识、指令遵循、学科综合、逻辑推理等诸多测试中能力几乎与GPT-5（High）持平，并超过DeepSeek、谷歌Gemini。

　　在音频理解方面，文心一言4.0 Preview的音频理解表现远超OpenAI GPT-4o和谷歌Gemini-2.5-Pro。

　　在视觉生成方面，文心一言4.0 Preview表现与Nana Banana、Veo 3相当。

　　在视觉理解方面，文心一言4.0 Preview表现同样与GPT-5、Gemini-2.5-Pro持平，并在文档理解的部分基准测试中远超其他模型。

　　这一系列的性能表现，值得我们扒一扒起背后的核心技术特性：

首先是原生全模态建模，其模型自训练初始即融合语言、图像、视频、音频等多模态数据，支持文、图、视、音联合输入输出，实现原生的全模态统一理解与生成。
二是理解与生成一体化，其攻克了多模态理解与生成统一建模的技术难题，通过精细建模多模语义特征，达成理解与生成相互增强。
三是自回归统一架构，对不同模态训练目标进行离散化建模，采用统一自回归架构训练，使多模态特征在统一架构下充分融合并协同优化，强化全模态统一建模效能。

　　依托飞桨深度学习框架，文心一言4.0采用了超稀疏混合专家模型结构，总参数量4.4万亿，激活参数比例低于10%。这得益于全模态超稀疏混合专家分布式训练和多集分离架构的全模态统一高性能推理。

　　其训练端采用多模态编码器分离异步训练架构等创新方案，结合FP8混合精度训练，推理端设计多级分离部署框架，搭配超稀疏均衡算法、动态投机解码等技术，显著降低推理成本。

　　最后是长程任务增强的智能体能力，其基于大规模真实、模拟工具环境的长程任务轨迹数据进行预训练与后训练增强，通过思维链、行动链结合端到端多轮强化学习训练，提升模型智能体及工具调用能力。

　　李彦宏谈道，大模型技术还在朝着智能水平不断突破极限、模型的思考时间变长、统一的原生多模态、进一步自我学习迭代发展。

国产大模型迎来产业新周期

　　从单模态、多模态到全模态，大模型的发展正从单一能力专精多能力协同，再到全场景适配进化。

　　全模态大模型通过深度整合文本、语音、图像等多元信息，既贴合人类多感官协同的自然交互逻辑，又能挖掘更多数据的潜在价值，成为拓展AI应用边界、驱动产业智能化升级的核心支撑。

　　强大的能力也意味着全模态大模型背后的技术难度，其需要攻克诸多多模态数据痛点，文本、语音、图像等数据格式、语义逻辑截然不同，而传统架构难以实现深度语义对齐。

　　再加上全模态大模型需处理的多源数据量与计算复杂度呈指数级增长，还需完成跨模态协同推理、灵活适配多样化场景需求等，因此其离不开底层架构的突破性创新。

　　文心一言4.0为原生全模态模型，它既是百度文心大模型攻克核心技术难关后的最新重磅成果，更突显了底层架构创新对于当下大模型技术进阶的核心支撑价值。

　　2019年开始深耕预训练模型，至2025年时间，百度在大模型的技术迭代突破、开源生态构建、产业应用落地三大核心维度持续布局。

　　在大模型技术层面，百度已经先后推出文心大模型4.0、4.5，其模型多次在大模型性能排行榜中名列前茅。

　　近两年，百度大模型的迭代节奏持续提速，不仅模型数量稳步扩容，覆盖类型也实现全方位拓展。

　　文心大模型4.5 Turbo、文心大模型X1 Turbo 、文心大模型X1.1深度思考模型、百度最新开源的文心思考模型ERNIE-4.5-21B-A3B-Thinking等模型悉数亮相，且文心思考模型在今年5月的HuggingFace全球模型总趋势榜和文本模型趋势榜均排名第一。

　　在开源生态方面，百度于今年4月正式官宣涵盖多款模型的文心大模型4.5系列正式开源，之后开源模型矩阵不断丰富和完善。

　　而在产业应用落地层面，今年4月，百度电商直播间的罗永浩数字人出圈，其200万元的GMV（商品交易总额）刷新了数字人带货纪录，该数字人基于百度剧本驱动多模协同的高拟真数字人技术，是多模融合且具备了思考、决策和执行能力的多智能体系统。

　　今日，百度还推出了实时互动型数字人技术，并现场与罗永浩数字人进行互动，让其按照要求进行点赞、比心、比耶三连，数字人动作丝滑流畅且保留了罗永浩本人的语言风格。

　　可以看到，百度正在将大模型能力转化为可落地、可复用的行业解决方案，推动技术价值向产业价值转化，构建起技术、生态、应用三位一体的良性发展闭环。

　　相比传统单一的文本或语音交互模式，全模态大模型让人机交互更贴合人类视听言思的自然认知习惯，也进一步拓展了行业应用场景的深度与广度。

本文转载自工人日报/智东西，作者：工人日报/智东西，原文标题：《 GPT-5.1上线，文心4.0登场，国产大模型为啥不慌》，原文链接： http://jxsmlw.cn/haerbin/770019f487db17c0whhb.html。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号