2026年5月,就在Google I/O大会前夕,一个名为Gemini Omni的全新视频模型在Gemini App中意外泄露,迅速引爆全网。这款被谷歌寄予厚望的”全模态统一模型”,不仅能生成超写实视频,还能在对话中实时编辑——去水印、换物体、改风格,一气呵成。它会是OpenAI Sora的终结者吗?

一、Gemini Omni 是什么?
Gemini Omni是Google DeepMind推出的原生全模态视频生成模型,隶属于Gemini系列。它并非独立应用,而是深度集成于Gemini App内,是谷歌对现有Veo视频模型的全面升级。
核心定位是“全能型内容生成引擎”——打通文本、图像、音频、视频全链路创作,实现”一个模型搞定所有模态任务”的目标。与Veo不同,Omni将像Nano Banana一样深度集成到Gemini中,具备更出色的提示理解与推理能力。
二、泄露始末:从UI字符串到惊艳Demo
5月2日:首次发现
X用户@Thomas16937378在Gemini应用的视频生成标签页中发现了一个UI字符串:“Start with an idea or try a template. Powered by Omni.”(从一个想法开始或尝试模板。由Omni驱动。)这一发现迅速被TestingCatalog等科技媒体跟进报道。
5月11日:Demo视频泄露
事情在5月11日迎来高潮——至少一名Gemini AI Pro订阅用户获得了Omni的访问权限,并分享了两段生成的视频片段:
- 教授黑板推公式:一位教授在黑板前一边讲课一边推导三角恒等式,公式书写正确、推导连贯、笔迹自然
- 海边餐厅吃意面:致敬Will Smith经典梗的视频,光影、纹理、动作复杂度都达到超写实级别
视频标签页的新文案显示,用户可以“重新混剪你的视频,直接在对话中编辑,尝试模板”。
三、核心功能:不只是生成,更是创作平台
1. 视频生成
支持文本prompt生成720P(1280×720)、10秒高清视频。画面细节流畅,人物动作自然,可生成讲课、场景叙事等多种内容。相比Veo 3.1,Omni在以下方面有显著提升:
- 文本渲染:能生成清晰连贯的屏幕文字,数学公式书写准确
- 光影效果:反射、折射、全局光照更真实
- 物理逻辑:物体运动符合物理规律,不会出现穿模或变形
2. 对话式编辑(Chat-Native Editing)
这是Omni最具革命性的功能。生成视频后,用户可以直接在聊天界面中实时修改:
- 一键去水印:直接对话去水印,画面毫无破绽
- 物体替换:动动嘴,视频中的物体就被精准替换,光影、遮挡关系自动适配
- 风格转换:将写实风格转为动漫风格,蓝色火焰特效、打斗动作线条,每一帧都像是专业动画师手绘
- 场景扩展:延长视频时长,添加新场景
无需切换工具,无需时间线编辑,纯对话式操作。
3. 多模态融合
原生支持文本、图像、音频、视频跨模态理解与生成:
- 根据图片生成视频
- 视频转文字
- 语音生成画面
- 音频与视频同步生成
4. 模板与混剪
内置多种视频模板,支持快速生成;可对已有视频进行”remix”(混剪),保持风格一致性。
四、技术特点与优势
| 特性 | Gemini Omni | Veo 3.1 | OpenAI Sora |
|---|---|---|---|
| 架构 | 大一统全模态 | 视频专用 | 视频专用 |
| 集成度 | 深度集成Gemini | 独立API | 独立App(已关停) |
| 对话编辑 | 原生支持 | 不支持 | 不支持 |
| 文本渲染 | 业界领先 | 一般 | 较差(鬼画符) |
| 分辨率 | 720P | 1080P | 1080P |
| 时长 | 10秒 | 8秒 | 60秒 |
| 状态 | 即将发布 | 已上线 | API only |
大一统架构
单模型处理所有模态,无需分模块调用,推理效率更高,跨模态逻辑更连贯。这是Omni与Veo最大的区别——Veo只管视频,Omni是”全能选手”。
实时交互
编辑指令响应快,支持边聊边改,创作流程连续,减少工具切换成本。
细节可控
生成视频时可精准控制物体、动作、场景细节,支持数学公式书写、复杂场景渲染。
五、与竞品的对比
vs OpenAI Sora
Sora曾是AI视频生成的标杆,但已于2026年4月29日正式关停消费者App,仅保留API服务。Sora的失败原因包括:
- 烧钱速度惊人:每天100万到1500万美元推理成本
- 用户留存率低:30天留存率不到8%
- 收入无法覆盖成本:整个生命周期应用内收入仅约210万美元
相比之下,Omni深度集成于Gemini生态,有望借助谷歌庞大的用户基础实现可持续发展。
vs ByteDance Seedance 2.0
Seedance 2.0是目前全球SOTA模型,商业可用率超过90%,支持文本、图像、音频、视频多模态输入。Omni的优势在于对话式编辑和与Gemini的深度集成,而Seedance 2.0在视频质量和时长上仍有优势。
vs 其他竞品
| 产品 | 公司 | 特点 |
|---|---|---|
| HappyHorse-1.0 | 阿里巴巴 | 曾在Artificial Analysis Video Arena短暂登顶 |
| Kling 3.0 | 快手 | 月营收超2000万美元,中国市场强势 |
| Hailuo | MiniMax | 角色一致性强,动作流畅 |
| Grok Video | xAI | 与X/Twitter平台深度整合 |
六、局限性与挑战
1. 算力消耗巨大
早期测试显示,生成2个视频就消耗了AI Pro计划86%的每日额度。这种超高的算力消耗侧面反映了视频生成任务的计算密集度,也可能限制普通用户的使用频率。
2. 时长限制
目前仅支持10秒短片,暂不支持长视频生成。对于需要长视频内容的创作者来说,这仍是一个瓶颈。
3. 付费墙
据泄露信息,Omni将仅对Google AI Pro订阅用户开放,免费用户可能无法使用或受到严格限制。
七、发布时间线预测
- 5月2日:UI字符串首次被发现
- 5月11日:Demo视频泄露,功能细节曝光
- 5月19-20日:Google I/O 2026大会,预计正式发布
- I/O后:逐步向Gemini Pro用户开放
- 未来:API和开发者接口陆续推出
谷歌通常会对大型模型发布采用分阶段推出策略,原因是安全评估、容量限制和定价最终确定。
八、对行业的意义
如果Omni如泄露所示成为Gemini的一级功能,它将代表一个重大转变:视频作为顶级通用AI平台的原生模态,而非单独管道中的外部工具。
在实际应用中,这可能减少团队的摩擦——目前他们需要拼凑:
- 文本生成用于脚本
- 图像生成用于故事板
- 单独的Video Model调用用于片段
- 跨多个工具的手动编辑步骤
一个紧密集成的Omni风格工作流可以在一个地方实现更具对话性、迭代性的创意循环,规划、生成和编辑都在同一处完成,跨轮次保持一致上下文。
九、总结
Google Gemini Omni代表了AI视频生成的下一个进化阶段——从”生成工具”到”创作平台”。它不仅是Veo的替代品,更是谷歌对多模态AI未来的押注。
核心亮点:
- 全模态统一架构,一个模型处理文本、图像、音频、视频
- 对话式编辑,革命性的交互方式
- 业界领先的文本渲染能力
- 深度集成Gemini生态
挑战也同样明显:算力消耗大、时长限制、付费门槛。但无论如何,AI视频生成已跨越”恐怖谷”,正式进入超写实时代。而谷歌,正试图用Omni重新定义这个赛道的规则。
Google I/O 2026即将开幕,让我们拭目以待Omni的正式亮相。
