DeepSeek多模态模型突破参照鸿沟，开源视觉推理新框架

发布日期：2026-05-07 来源：搜狐/电动新物种作者：搜狐/电动新物种浏览：2

DeepSeek在GitHub平台正式开源其多模态大模型，同步发布的技术报告揭示了创新推理框架。该团队指出，当前主流思维链范式过度依赖语言描述，在处理空间布局等复杂任务时易出现逻辑断裂。为此，他们提出将点、边界框等视觉元素作为基础推理单元，使模型能够直接关联图像物理坐标进行精准判断。

实验数据显示，该模型在计数和空间推理测试中，以更紧凑的架构和更低的图像标记成本，达到与GPT-5.4等头部模型相当的性能水平。

本文转载自搜狐/电动新物种，作者：搜狐/电动新物种，原文标题：《 DeepSeek多模态模型突破参照鸿沟，开源视觉推理新框架》，原文链接： https://m.sohu.com/a/1017359110_121850794/。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅