智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


京公网安备11010602202532号 谷歌官方对 Gemini Omni 的定位,是用一个更“通”的多模态思路把生成与编辑拢到一起:你可以把文本、图片、音频、视频混合作为输入参考,让模型输出一段视频(目前落地重心在视频+同步音频),并且用自然语言继续改——换环境、换视角、调氛围、替换局部元素,尽量让画面逻辑和角色一致性不崩。
立即可用的入口叫 Gemini Omni Flash,现在已经推进到三个地方:
Gemini 应用(面向 Google AI Plus / Pro / Ultra 订阅用户)
Google Flow
YouTube Shorts Remix / YouTube Create App(对 18+ 用户免费开放体验)
过去大多数文生视频工具的问题不是“能不能出片”,而是改不起:你想微调一处背景,往往得重新生一整段,随机性又把别处弄坏。Omni 这次强调的是另一条路——多轮对话里做增量修改,且尽量记住前面发生了什么(场景连续性、角色一致性、物理直觉层面的合理性)。
官方也明确给了“护栏”:所有 Omni 生成内容默认带 SynthID 数字水印,并接入 Gemini / Chrome / Search 的验证路径,指向内容溯源问题,而不只是“能生成”。
需要清醒看待的几条:
片段仍然偏短:公开资料与多家汇总都指向每段输出在 10 秒级这种产品设定(更长视频更多是未来路线叙事,不是今天默认体验)。
音频编辑边界很明确:官方说明里提到,生成出的视频会带原生同步音效/环境音,但“编辑生成视频里的语音或音频”这类能力仍处在更谨慎的评估/分阶段开放逻辑里。
至于“任意输入→任意输出”的终极形态,官方写法是 starting with video / over time 的扩展路径,而不是今天已经全打通。
跟 Sora 之类常被拿来对比的点也不复杂:Omni Flash 现在的差异化不在“长镜头电影级时长”,而在它嵌进谷歌已有产品触点(Gemini App、Flow、Shorts)并把交互做成“对话迭代”,这让它的第一波用户不是影视棚,而是创作者、运营、小团队——他们要的是更快把素材转成可用短片,而不是重拍一条广告大片。
Gemini Omni Flash 的意义,不是又多了一个“AI 能生成视频”的消息,而是把视频生成从一次性抽奖推进到可对话、可修改、可溯源的工作流里。它能不能真正留住用户,不看发布会台词,看接下来几个月:Shorts 里的实际使用是不是顺手、出片率稳不稳定、以及 API 开放后的成本与可控性。
