当前位置: 首页 > 行业资讯 > 资讯详情

多模态大模型

发布日期：2026-04-12 来源：百度百科作者：百度百科浏览：2

发展历史

2023年6月21日，据《科创板日报》报道，蚂蚁集团的技术研发团队正在自研语言和多模态大模型，内部命名为“贞仪”。

2023年，贾佳亚团队发布超长文本扩展技术LongLoRA，打破了全球大语言模型的“长文本魔咒”。2023年，Seele AI开始系统研究多模态大模型。2024年，AI开始能够直接生成网页UI，团队开始全面使用vibe coding。2025年，Claude Code出现，coding模式开始改变，团队开始尝试自动化工程。2025年，贾佳亚团队开发出开源多模态基础模型DreamOmni2，多个关键性能指标超越谷歌同期的闭源商用模型Nano Banana。2026年初，Openclaw受到关注，团队在春节期间测试了多款自动化工具。这些技术积累最终促成了其推进“AI Native”公司变革的构想与实践。

2026年3月，清华大学与美团研究团队联合推出了“3DThinker”技术，旨在解决现有模型在三维空间理解上的不足，标志着多模态大模型从“看图说话”向“看图想空间”的演进。

中国人民大学与OPPO研究院提出了图像检索新范式“DeepImageSearch”及评测基准DISBench，将任务从“逐张语义匹配”推向“语料库级上下文推理”。

2026年3月16日，通义实验室发布并开源了首个支持影视级多场景配音的多模态大模型Fun-CineForge。该模型通过“数据 + 模型”的一体化设计，并配套开放了高质量数据集的构建方法，尝试解决影视级 AI 配音长期面临的关键问题。

在技术层面，Fun-CineForge引入了“时间模态”概念，通过精准的时间戳控制来确保语音合成与画面的同步，尝试解决传统AI配音中口型不同步、情感表达缺失以及多角色音色不一致等核心问题。其配套开源的CineDub数据集构建流程，利用大模型思维链技术将原始影视素材自动化转化为结构化数据，降低了人工标注成本，其中英文字错率约1%，说话人分离错误率为1.20%。该模型已在GitHub、HuggingFace和魔搭社区上线，支持30秒以内的短视频片段推理，并实现了对单人独白及多人对话场景的专业级支持。这一进展标志着AI语音技术正从基础的客服、助手场景向高标准的动漫、影视后期制作领域迈进。

2026年3月19日，复旦大学、上海科学智能研究院、上海创智学院联合发布了聚焦早期中华文明的多模态大模型“炎黄”。该模型融合文本、图像、空间地理信息、基因图谱等多维数据，实现跨模态史料融合与逻辑推理，旨在为历史研究提供智能化支持，开辟人文研究智能化新路径。

同日，由智元牵头，联合清华大学、麦吉尔大学完成的研究成果MANSION成功入选CVPR 2026。该成果提出一个面向整栋建筑的语言驱动多楼层3D场景生成框架，融合多模态大模型与几何求解器，实现从自然语言指令到完整多楼层3D建筑的端到端生成，并发布了包含1000+栋多楼层建筑的MansionWorld数据集，旨在为具身智能在复杂现实环境中的研究打造关键“数字试验场”。

2026年3月26日，清华大学与西安交通大学联合开源发布了统一多模态大模型Cheers。该模型提出了一种面向统一多模态理解与生成的架构路线，实现统一多模态理解与生成的端到端框架，在保持架构简洁的同时实现理解与生成联合优化。Cheers实现了零额外预训练成本，并具备4× token压缩能力，在更少训练数据下达到同规模SOTA性能。该模型已在GitHub和HuggingFace平台开源。

2026年3月26日，智源研究院联合生态合作伙伴打造的开源统一软件栈众智FlagOS完成业界首个以统一系统软件栈完成的端到端训练全要素验证，覆盖语言、多模态、具身三种AI大模型，并在海光集群上实现了320亿参数多模态大模型的千卡训练。

2026年3月27日，美团发布并全面开源原生多模态大模型LongCat-Next及其核心组件——离散原生分辨率视觉分词器(dNaViT)。该模型打破了当前大模型以“语言为中心”的传统拼凑式架构，将图像、语音与文本统一映射为同源的离散Token，通过纯粹的“下一个Token预测”(NTP)范式，让视觉与语音成为AI的“原生母语”。

发展趋势

人工智能的技术前沿将朝着四个方向发展。第一个前沿方向为多模态大模型。

例如，在三维空间理解方向上，2026年3月，清华大学与美团研究团队联合推出了名为“3DThinker”的技术。该技术旨在解决现有模型在三维空间理解上的不足，无需3D标注数据或依赖外部工具，首次实现了让模型在推理过程中内蕴地“想象”三维场景。其采用创新的双阶段训练策略，在多个空间理解基准测试上取得了显著性能提升，标志着多模态大模型从“看图说话”向“看图想空间”的演进。

在深度搜索与上下文推理方向，2026年3月，中国人民大学高瓴人工智能学院窦志成教授团队联合OPPO研究院提出了图像检索新范式DeepImageSearch，将其从“逐张语义匹配”推向“语料库级上下文推理”。该研究构建了首个评测基准DISBench，并通过ImageSeeker框架对主流多模态大模型（如GPT-5.2、Claude-Opus-4.5、Gemini-3-Pro等）进行了系统评测。结果显示，即使是最强的模型，在该需要长程规划与上下文推理的新任务上表现不佳，单次尝试完美解决查询的比例不超过30%，揭示了当前模型在规划、状态管理和跨事件推理方面的关键短板。

在与实体交互场景的结合上，多模态大模型被视为具身智能的“大脑”，是支撑机器思考的核心。当前通用与垂直大模型的场景适配性仍有不足，难以让机器人形成贴合人类思维的感知、判断与决策能力。未来需要攻关适配物理世界的多模态大模型，以提升机器的感知、判断与场景泛化能力。2026年3月，由智元牵头，联合清华大学、麦吉尔大学完成的研究成果MANSION框架入选CVPR 2026。该框架融合多模态大模型与几何求解器，实现了从自然语言指令到完整多楼层3D建筑的端到端生成，并构建了包含1000+栋多楼层建筑的MansionWorld数据集。MANSION为全球研究者提供了标准化楼宇级测试平台，使机器人在复杂环境中探索空间理解、记忆规划、长期任务能力成为可能，展示了多模态大模型在构建可交互、可配置、贴近真实的复杂3D环境方面的能力，是推动具身智能发展的重要实践。

与此同时，多模态大模型在生成高质量训练数据以解决具身智能发展瓶颈方面的作用也日益凸显。通过融合可控视频生成技术与真实多模态数据，可以规模化生成具身智能训练数据，提升数据的质量与物理一致性，为具身智能模型进化提供支持。

贾佳亚团队研发的工业智能体已在汽车、高铁列车、新能源、精密工业等领域得到应用，旨在提升生产线的自动化检测与分析能力。

在生成式AI与虚拟世界构建方向，2026年3月，谷歌更新了Genie 3平台，展示了AI在实时生成互动世界方面的进展。当前版本在一致性保持上有所改进，通常能维持约一分钟，体现了多模态大模型在创造动态、交互式虚拟环境方面的技术进步。然而，该技术目前仍处于探索阶段，其生成方式为逐帧生成画面，基于文本提示，与完整的3D引擎相比还有差异，在实际应用如游戏开发中面临挑战。

在统一多模态理解与生成方向上，2026年3月，清华大学与西安交通大学联合开源发布了Cheers模型。该模型提出了一种更简洁、高效的统一多模态架构路线，通过将理解与生成任务统一到同一个端到端框架中进行联合优化，并最大程度继承开源预训练模型已有知识。Cheers实现了4× token compression，兼顾了统一建模与高效率，为高分辨率视觉理解与生成提供了更现实的路径。其设计表明，理解与生成在合理架构下可以协同增效，统一模型的关键可能在于高效的信息接口而非单一的视觉表示，这为开源社区提供了一条现实可行的升级路线。

此外，多模态大模型在数字经济中的实际应用和全球合作也取得进展。2026年3月31日，在联合国日内瓦总部万国宫举行的2026全球数字经济大会数字经济合作与创新论坛上，北京市分享了建设数字经济标杆城市的“北京方案”，指出全市210余款大模型面向公众提供服务，大语言模型、多模态大模型、智能体等呈现百花齐放的创新应用格局。全球数字经济城市联盟高度评价北京在建设全球数字经济标杆城市方面的做法，论坛设置了“北京方案”展区，促进了多模态大模型等技术的全球交流与合作。

在端侧安全部署与隐私保护方向，2026年4月10日，无问芯穹发布了InfiniClaw Box，旨在解决大模型应用中隐私保护的难题。该产品提出了“本地脱敏 - 云端处理 - 本地回填”的端云一体三段式安全脱敏推理方案，实现了数据不出本地却能调用云端GLM-5、Kimi-K2.5等行业头部大模型的能力。InfiniClaw Box具备全模态安全脱敏能力，能自动识别并处理文本、图像、音频、视频中的敏感信息。

竞争格局与产业现状

截至2026年初，中国AI大模型Token调用量已连续五周超过美国，且差距持续扩大。全球周均Token调用量中，中国占比40%-45%，美国占比30%-35%。

在AI视频生成领域，中国公司如爱诗科技的PixVerse、快手的可灵、字节跳动的即梦（Seedance2.0）等在全球市场中占有重要份额。PixVerse全球用户规模突破1亿，可灵用户突破6000万。OpenAI的Sora于2026年3月26日宣布关停。

中国公司在算法创新上有所进展，能够以较低的成本训练出性能达到或接近国外先进模型水平的AI应用。例如，快手可灵以低于OpenAI的研发成本，实现了可观的营收。中国在数据层面拥有一定基础，包括短视频内容生态和工业体系产生的工程经验数据，为多模态大模型训练提供了语料。

中美AI发展路径存在差异：美国部分项目受金融资本驱动，侧重实验室研究；中国AI产业侧重商业化落地、成本控制及与实体经济的结合。

中国在全球工业机器人部署量中占比超过50%。此外，中国本土的数学人才供给被视为一项长期因素。

随着算法优化降低算力成本，多模态大模型有望在基建、工业、农业等领域得到应用。中国AI发展强调与数据结合。

本文转载自百度百科，作者：百度百科，原文标题：《多模态大模型》，原文链接： https://baike.baidu.com/item/多模态大模型/63122644。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号