首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

视频大模型

发布日期:2026-04-10 来源:百度百科作者:百度百科浏览:1

国内发展

  2024年2月国际同类模型Sora发布后,视频大模型行业进入快速发展期,国内已发布超过20款相关产品。

  2024年4月27日,中国首个自研视频大模型Vidu发布,具备长时长、高动态特性。

  腾讯、阿里巴巴、字节跳动等企业均推出多个模型,如阿里巴巴的AtomoVideo(文生视频)。

  2026年1月22日,百度发布并上线原生全模态大模型“文心大模型5.0”正式版,模型参数达2.4万亿,采用原生全模态统一建模技术。作为其产品矩阵的一部分,该模型的视频生成技术已集成于百度千帆平台,供企业与开发者调用。

  2026年3月3日,昆仑天工(昆仑万维)的SkyReels-V4模型在权威第三方机构Artificial Analysis发布的全球视频大模型榜单中,位列文转视频(含音频)全球榜第2名。

  2026年3月29日,在中关村论坛“AI未来论坛”上,生数科技创始人朱军教授发表演讲,介绍了其通用世界模型布局,其中视频大模型Vidu被定位为数字空间的核心应用,旨在提升数字内容生产效率。

  2026年4月8日,阿里巴巴的AI视频大模型HappyHorse1.0以1333 Elo分登顶Artificial Analysis视频竞技场排行榜,对OVI 1.1的胜率为80%,对LTX 2.3的胜率为60.9%,是目前全球排名最高的开源视频生成模型。2026年4月10日,据报道,HappyHorse已内部上架阿里百炼,预计一周后对外发布。

技术特征

  主流视频大模型需结合自然语言解析与图像识别技术。

  部分模型采用端到端生成管道(如MagicVideo-V2)或开源框架(如VideoCrafter)提升效率。

  国产模型在画面清晰度、动作连贯性等方面仍与预期存在差距,细节处理如手部动作需进一步优化。进入2025年,国产视频大模型在生成效率与物理仿真精度方面持续改进,制作成本也有所降低。2026年,国产视频大模型在技术方面持续创新,例如在端到端合成、实时交互数字人等方面取得进展,进一步提升了生成效率和交互能力。

  例如,昆仑天工于2026年3月发布的SkyReels-V4模型在全球视频大模型榜单中位列第二,其技术特点包括支持文本、图像、视频片段、掩码、音频等多模态混合输入,实现全模态参考和一体化生成;具备专业级视频修复和全维度视频编辑能力;采用双流MMDiT架构,通过双向交叉注意力实现音视频底层联合生成与同步;利用通道拼接+时序拼接技术统一处理多种输入模态和编辑任务;并采用“快速低清序列生成 + 关键帧高清超分/插值”策略平衡画质与速度,配合视频稀疏注意力(VSA)机制提升效率。

行业趋势

  2026年,国产视频大模型在技术方面持续创新,进一步提升了生成效率和交互能力。其中,昆仑天工的SkyReels-V4在2026年3月的权威评测中取得了全球第二的成绩。

  同时,视频大模型正从单一的文生视频功能,向支持文本、图像、视频、音频等多模态混合输入,并能同步生成、编辑、修复音视频内容的一体化创作平台方向演进。这种全流程能力显著降低了如产品宣传、短剧制作、教育课件等内容创作的门槛。

  未来技术竞争将围绕三大方向:提升自然语言理解精度、延长生成视频时长、增强画面细节还原能力;此外,竞争焦点进一步扩展到生成长视频(超越15秒)、实现更高分辨率(如4K/8K)、优化跨语言音视频协同以及降低模型推理成本等维度。

  此外,视频大模型正被纳入更宏大的“通用世界模型”技术架构中。例如,生数科技提出的通用世界模型以基座世界模型为核心,向上延展出贯通数字空间与物理空间的双轨体系,形成面向通用智能的核心基础架构。其中,视频大模型(如Vidu)作为数字空间的核心组件,通过生成世界的能力,与其他模型协同构建理解、生成与行动于世界的完整技术闭环。

本文转载自百度百科, 作者:百度百科, 原文标题:《 视频大模型 》, 原文链接: https://baike.baidu.com/item/视频大模型/64343873。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅