首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

DeepSeek-V4发布!高效百万上下文智能普惠时代来了

发布日期:2026-04-27 来源:腾讯网作者:腾讯网浏览:3

架构与优化的关键突破

  DeepSeek-V4 系列,在架构与优化方面实现了多项关键升级。其中最重要的3项是:

  1. 混合注意力架构:一种结合压缩稀疏注意力(Compressed Sparse Attention, CSA)与重度压缩注意力(Heavily Compressed Attention, HCA)的混合注意力机制,显著提升了长上下文处理效率。

  在百万 token 上下文场景下,DeepSeek-V4-Pro 相比 DeepSeek-V3.2 仅需 27% 的单 token 推理 FLOPs 和 10% 的 KV 缓存。

  1. 流形约束超连接(Manifold-Constrained Hyper-Connections, mHC):mHC 引入,增强了传统的残差连接,在保持模型表达能力的同时,提升了跨层信号传播的稳定性。
  2. Muon 优化器:Muon 优化器以实现更快的收敛速度和更高的训练稳定性。

  过去,处理超长文本需要海量计算,而 DeepSeek-V4 的核心技术革新,让模型处理文本时会区分信息的轻重缓急,进行选择性计算,将处理百万 Token 的算力消耗与 KV 缓存占用大幅降低。

  这使得开源社区,以前因成本问题而难以规模化应用的场景被彻底打开。开发者现在可以一次性让 AI 分析整个代码仓库,企业能低成本地上传海量文档进行深度分析,学术界也能将整部著作交给 AI,以此解锁更多创新应用。

  DeepSeek 宣布“从现在开始,1M 上下文将是 DeepSeek 所有官方服务的标配”,晰地定下了新基调。过去需要高价购买或额外申请的能力,现在已成了开源社区的默认配置。

  DeepSeek V4-Flash 版本的 API 输出定价仅为 2 元人民币/百万 token(约 0.3 美元),而就在前一天,OpenAI 发布的 GPT-5.5 定价为 30 美元/百万 token,高达百倍的差价。

  现在,个人开发者和中小企业也能以极低成本调用顶尖模型,打破了成本壁垒。

  而且,DeepSeek-V4已全面适配国产芯片。开源社区摆脱了单纯依赖英伟达CUDA生态,开启探索自主可控的多元化算力时代。

模型版本参数配置

  DeepSeek-V4 系列预览版本,包含两款强大的混合专家(Mixture-of-Experts, MoE)模型。

  DeepSeek-V4-Pro(总参数量 1.6T,激活参数量 49B)和 DeepSeek-V4-Flash(总参数量 284B,激活参数量 13B),二者均支持 百万 token 的上下文长度。

  其中基础版采用 FP8 精度,指令微调版是 FP4 + FP8 混合(MoE 专家参数使用 FP4 精度,其余大部分参数使用 FP8)。

  与前代相比,即使是 284B 的 Flash 版,性能也全面提升。

  指令微调版,DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 均支持三种推理强度模式。

  相同推理模式下,DeepSeek-V4-Flash 相比 DeepSeek-V4-Pro,性能差距很小,价格却低了十多倍(输出),这对日常任务使用和开源社区,简直就是宝藏模型。

性能比肩顶级闭源模型

  DeepSeek-V4-Pro-Max 性能,与世界顶级闭源模型的差距已经很小。

  相比前代模型,DeepSeek-V4-Pro 的 Agent 能力显著增强。

  在 Agentic Coding 评测中,V4-Pro 已达到当前开源模型最佳水平,并在其他 Agent 相关评测中同样表现优异。

  官方表示,目前 DeepSeek-V4 已成为 DeepSeek 公司内部员工使用的 Agentic Coding 模型,评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式。

  DeepSeek-V4-Pro 在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型 Gemini-Pro-3.1。

  在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的优异成绩。

  DeepSeek-V4 还针对 Claude Code 、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 产品进行了适配和优化。

  DeepSeek-V4 上线,将成为开源社区百万长上下文和高性能 Agent 两大未来趋势有力推动者。它通过架构创新,在不牺牲性能的前提下,极大降低大模型的门槛。

本文转载自腾讯网, 作者:腾讯网, 原文标题:《 DeepSeek-V4发布!高效百万上下文智能普惠时代来了 》, 原文链接: http://news.qq.com/rain/a/20260427A025NI00。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅