视频大模型_智算多多

国内发展

　　2024年2月国际同类模型Sora发布后，视频大模型行业进入快速发展期，国内已发布超过20款相关产品。

　　2024年4月27日，中国首个自研视频大模型Vidu发布，具备长时长、高动态特性。

　　腾讯、阿里巴巴、字节跳动等企业均推出多个模型，如阿里巴巴的AtomoVideo（文生视频）。

　　2026年1月22日，百度发布并上线原生全模态大模型“文心大模型5.0”正式版，模型参数达2.4万亿，采用原生全模态统一建模技术。作为其产品矩阵的一部分，该模型的视频生成技术已集成于百度千帆平台，供企业与开发者调用。

　　2026年3月3日，昆仑天工（昆仑万维）的SkyReels-V4模型在权威第三方机构Artificial Analysis发布的全球视频大模型榜单中，位列文转视频（含音频）全球榜第2名。

　　2026年3月29日，在中关村论坛“AI未来论坛”上，生数科技创始人朱军教授发表演讲，介绍了其通用世界模型布局，其中视频大模型Vidu被定位为数字空间的核心应用，旨在提升数字内容生产效率。

　　2026年4月8日，阿里巴巴的AI视频大模型HappyHorse1.0以1333 Elo分登顶Artificial Analysis视频竞技场排行榜，对OVI 1.1的胜率为80%，对LTX 2.3的胜率为60.9%，是目前全球排名最高的开源视频生成模型。2026年4月10日，据报道，HappyHorse已内部上架阿里百炼，预计一周后对外发布。

技术特征

　　主流视频大模型需结合自然语言解析与图像识别技术。

　　部分模型采用端到端生成管道（如MagicVideo-V2）或开源框架（如VideoCrafter）提升效率。

　　国产模型在画面清晰度、动作连贯性等方面仍与预期存在差距，细节处理如手部动作需进一步优化。进入2025年，国产视频大模型在生成效率与物理仿真精度方面持续改进，制作成本也有所降低。2026年，国产视频大模型在技术方面持续创新，例如在端到端合成、实时交互数字人等方面取得进展，进一步提升了生成效率和交互能力。

　　例如，昆仑天工于2026年3月发布的SkyReels-V4模型在全球视频大模型榜单中位列第二，其技术特点包括支持文本、图像、视频片段、掩码、音频等多模态混合输入，实现全模态参考和一体化生成；具备专业级视频修复和全维度视频编辑能力；采用双流MMDiT架构，通过双向交叉注意力实现音视频底层联合生成与同步；利用通道拼接+时序拼接技术统一处理多种输入模态和编辑任务；并采用“快速低清序列生成 + 关键帧高清超分/插值”策略平衡画质与速度，配合视频稀疏注意力（VSA）机制提升效率。

行业趋势

　　2026年，国产视频大模型在技术方面持续创新，进一步提升了生成效率和交互能力。其中，昆仑天工的SkyReels-V4在2026年3月的权威评测中取得了全球第二的成绩。

　　同时，视频大模型正从单一的文生视频功能，向支持文本、图像、视频、音频等多模态混合输入，并能同步生成、编辑、修复音视频内容的一体化创作平台方向演进。这种全流程能力显著降低了如产品宣传、短剧制作、教育课件等内容创作的门槛。

　　未来技术竞争将围绕三大方向：提升自然语言理解精度、延长生成视频时长、增强画面细节还原能力；此外，竞争焦点进一步扩展到生成长视频（超越15秒）、实现更高分辨率（如4K/8K）、优化跨语言音视频协同以及降低模型推理成本等维度。

　　此外，视频大模型正被纳入更宏大的“通用世界模型”技术架构中。例如，生数科技提出的通用世界模型以基座世界模型为核心，向上延展出贯通数字空间与物理空间的双轨体系，形成面向通用智能的核心基础架构。其中，视频大模型（如Vidu）作为数字空间的核心组件，通过生成世界的能力，与其他模型协同构建理解、生成与行动于世界的完整技术闭环。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号