DeepSeek多模态正式发布

厚积薄发：从文本王者到多模态新贵

DeepSeek长期深耕大语言模型，旗下V系列模型以强大的文本推理、编程与长文本理解能力著称，在全球开源社区拥有广泛影响力。但此前其多模态能力仅停留在开源研究阶段（如VL、VL2、Janus系列），未接入主产品。

此次多模态能力正式上线，是DeepSeek技术战略的关键落地：

产品端：网页端与App新增“识图模式”，与“快速模式”“专家模式”并列，用户可直接上传图片进行理解、分析与问答。

技术端：联合北大、清华提出“基于视觉原语的思考”创新框架，攻克当前多模态模型“能看见但想不清”的普遍难题。

生态端：核心技术开源免费商用，助力开发者快速构建多模态应用，推动国产AI生态繁荣。

技术突围：以视觉原语重构推理逻辑

当前主流多模态大模型依赖“语言思维链（CoT）”，存在参照鸿沟——自然语言模糊性难以精准描述空间布局，导致复杂计数、空间推理任务逻辑崩溃。DeepSeek的核心突破，是将点、边界框等空间标记升级为“思维基本单元”，让模型推理时能“指代”图像物理坐标，实现精准空间推演。

核心技术亮点

原创推理范式：视觉原语直接融入思考链路，认知轨迹锚定图像物理坐标，解决空间推理模糊性问题。

高效架构设计：模型规模紧凑、图像标记预算低，在计数与空间推理基准测试中，性能对标GPT-5.4、Claude-Sonnet-4.6等国际顶尖模型。

全能理解能力：支持图像描述、空间定位、图表解析、科学文献理解、梗图识别、视频分析等，在MathVista、AI2D等测评中位列开源模型第一。

高分辨率支持：VL2版本支持1152×1152动态分辨率，MoE架构提升复杂场景处理效率。

能力跃迁：不止识图，更是深度理解

DeepSeek“识图模式”绝非简单OCR文字提取，而是具备真正的图像理解与推理能力：

基础理解：精准描述图像内容、识别物体与场景、提取文字信息。

空间推理：定位物体相对位置（如“红色杯子左侧的笔记本”），准确率超越GPT-4V 5%。

逻辑解析：读懂复杂电路图、机械结构图、科研图表并解题，支持Plot2Code（图表转代码）。

高阶认知：理解梗图隐喻、分析图像情绪、识别视频动作与因果关系，具备联想与自纠错能力。

行业意义：国产AI的里程碑时刻

DeepSeek多模态正式发布，是国产大模型发展的关键里程碑：

技术自主可控：核心推理范式原创，摆脱对国外技术路径的依赖，实现从“应用跟随”到“原创引领”的跨越。

打破国际垄断：在空间推理、图表理解等高端能力上对标国际顶尖模型，提升国产AI全球竞争力。

赋能产业升级：开源免费商用降低应用门槛，助力教育、医疗、工业、文创等行业智能化转型。

构建生态闭环：从文本到多模态的能力补齐，结合长上下文、编程等优势，形成完整通用智能基座。

未来展望：让AI真正看懂世界

DeepSeek多模态的发布，不是终点而是起点。未来，随着技术持续迭代，模型将进一步提升视频理解、3D空间感知、跨模态生成等能力，深度赋能具身智能、元宇宙、数字孪生等前沿领域。

从“文字沟通”到“视觉共鸣”，从“单模态认知”到“多模态融合”，DeepSeek以“视觉原语思考”为钥，打开了AI感知世界的新大门。这不仅是一家企业的技术突破，更是中国AI产业坚持自主创新、勇攀科技高峰的生动缩影。期待DeepSeek持续深耕，用技术创新让AI更懂世界、更懂人类，为数字中国建设注入强劲动力。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号