2026年5月19日,Google I/O大会如期而至。这场被称为”谷歌历年发布密度最高的一届”大会,由Google DeepMind负责人德米斯·哈萨比斯亲自登台,正式发布Gemini Omni。同时亮相的还有Gemini 3.5 Flash、Antigravity 2.0、Gemini Spark,以及Google搜索25年来最大升级。本文为你带来Gemini Omni的深度测评。

一、Gemini Omni是什么?
Gemini Omni是Google推出的全模态生成模型,由德米斯·哈萨比斯亲自宣布发布。官方定位是“可从任何输入创建任何内容的全新模型”——它不只是视频生成工具,更是Google向”世界模型”方向迈进的关键一步。
Gemini Omni能把数学推导、蛋白质折叠等抽象概念,转化为符合物理逻辑的视频。
Gemini Omni vs Nano Banana:核心区别
| 维度 | Nano Banana(前代) | Gemini Omni(本代) |
|---|---|---|
| 输入形式 | 图像为主 | 图像+文字+视频+音频任意组合 |
| 输出形式 | 图像 | 视频(首发),图像/音频路线图中 |
| 编辑方式 | 单轮Prompt | 多轮对话式连续编辑 |
| 物理理解 | 有限 | Gemini世界知识注入,支持重力/动能等物理推理 |
| 水印 | — | SynthID数字水印内嵌于所有生成视频 |
二、核心能力深度测评
1. 视频生成:物理世界的理解者
Gemini Omni的核心突破在于对物理世界的理解。Google强调,Veo、Nano Banana、Genie等模型已经能生成视频、图片和交互式模拟,但Gemini Omni更进一步,开始处理动能、重力等更接近物理世界的问题。
现场演示案例:
- 蛋白质折叠解释视频:输入”用粘土动画解释蛋白质折叠”,Omni生成了从氨基酸链折叠成α螺旋和β折叠的每一步视频,科学准确,视觉为精致定格动画
- 手掌变黑洞:拍摄一段手掌视频,加一句话”让手掌上出现黑洞”,结果手掌上精准出现黑洞效果
- 场景风格转换:街景视频加一句话,变成赛博朋克场景
2. 对话式视频编辑:革命性的交互方式
这是Gemini Omni最具革命性的功能。与传统的单轮Prompt不同,Omni支持多轮对话式连续编辑:
- 上传自己的视频
- 用对话方式修改风格、加入元素、调整细节
- 在原有视频基础上反复叠加指令
- 保持角色和物理逻辑的连贯性
演示中还展示了更神奇的能力:用户可以把一个普通圆形转成黑洞,把夜晚散步场景变成更具戏剧感的画面。
3. 物体替换与去水印
在早期泄露测试中,Omni就展示了令人惊叹的编辑能力:
- 物体替换:将视频中的意大利面替换为冬阴功汤
- 精准去水印:直接对话去除其他AI生成视频中的动态水印,画面毫无破绽
- 风格化输出:动漫风格的视频,蓝色火焰特效、打斗动作线条,每一帧都像专业动画师手绘
4. 局限性:逻辑漏洞仍存
尽管表现惊艳,但早期测试也暴露了一些问题:
- 在复现”威尔·史密斯吃面”场景时,Omni生成的视频虽更接近真人效果,但存在面条在口腔外飞舞等物理错误
- 计算成本高昂:生成2个视频就消耗AI Pro计划86%的每日额度
- 目前仅支持10秒短片
三、Google I/O 2026全明星阵容
Gemini Omni只是本次大会的一道开胃菜。Google同时发布了四大核心产品:
| 产品 | 类别 | 状态 |
|---|---|---|
| Gemini 3.5 Flash | 旗舰语言/Agent模型 | 即日起上线 |
| Gemini Omni Flash | 全模态生成模型 | 即日起上线 |
| Antigravity 2.0 | Agent开发平台 | 即日起可用 |
| Gemini Spark | 个人AI Agent | 下周美国Beta |
Gemini 3.5 Flash:极速编码Agent
Gemini 3.5 Flash是本次大会的另一重磅发布,官方定位为“迄今为止最强的编码、智能体模型”。
| 基准测试 | 得分 |
|---|---|
| Terminal-Bench 2.1(编码能力) | 76.2% |
| GDPval-AA(真实世界Agent任务) | 1656 Elo |
| MCP Atlas(大规模工具使用) | 83.6% |
| CharXiv Reasoning(多模态推理) | 84.2% |
速度表现:289 tokens/秒,比GPT-5.5和Claude Opus 4.7快4倍以上。在Antigravity中经过专门优化后,速度可达到12倍。
成本优势:执行长程任务的成本通常低于其他前沿模型50%以上。
Antigravity 2.0:93个Agent 12小时构建操作系统
Antigravity 2.0是本次I/O最受开发者关注的发布之一,从IDE形态进化为独立桌面应用,彻底拥抱Agent-first设计。
搭载Gemini 3.5 Flash,93个Agent并行工作,发出超15000次模型请求,处理26亿token,12小时后从零构建出功能完整的操作系统内核(调度程序、内存管理、文件系统)。API总费用不到1000美元。
更令人震惊的是:这个系统成功运行了DOOM。由于最初缺少视频和键盘驱动,Antigravity又继续生成相关代码并修复,让DOOM能够运行。
Gemini Spark:7×24小时个人AI管家
Gemini Spark是Google定位为“个人AI Agent”的产品,运行在Google Cloud的专用虚拟机上,合上笔记本电脑仍持续工作。
- 7×24小时在线,由Gemini 3.5 Flash + Antigravity框架驱动
- 深度整合谷歌全家桶:Gmail、Docs、Sheets、Slides、Google Calendar
- 支持语音多任务:一次说出多个任务,Spark自动拆解并行执行
- 本周面向部分测试者开放,下周以Beta形式面向美国AI Ultra订阅用户推出
四、横向对比:Gemini Omni vs 竞品
| 维度 | Gemini Omni | OpenAI Sora 2 | Seedance 2.0 |
|---|---|---|---|
| 编辑能力 | 对话式多轮编辑 | 不支持 | 有限 |
| 物理理解 | 强(Gemini世界知识) | 一般 | 一般 |
| 输出时长 | 10秒 | 最长60秒 | 更长 |
| 文本渲染 | 业界领先 | 较差 | 中等 |
| 去水印 | 支持 | 不支持 | 不支持 |
| 价格 | 待公布 | API only | 商业授权 |
| 生态集成 | Gemini/Flow/YouTube | 独立App | 独立服务 |
五、定价与可用性
Gemini Omni
- Omni Flash:即日起上线,接入Gemini App、Google Flow、YouTube Shorts
- Omni Pro:路线图中
- API:七牛云等已上线
订阅计划调整
| 档位 | 原价 | 新价 |
|---|---|---|
| AI Ultra Beta(Spark入口) | — | $100/月(新增) |
| AI Ultra最高档 | $250/月 | $200/月(降价$50) |
六、行业影响与展望
回顾本次I/O,真正让行业感到震撼的不是某一个具体产品,而是三块拼图同时到位:
- Gemini Omni:全模态理解与生成,一句话变成一个世界
- Antigravity 2.0 + 3.5 Flash:93个Agent从零构建操作系统,AI不再只是工具
- Gemini Spark:7×24小时自主执行,AI开始替代人类”打开App”这个动作本身
一个更值得关注的数据是:Google内部token处理量从3月的5000亿/天飙升至现在的3万亿/天。这个数字是比任何基准测试都更真实的市场信号:整个谷歌生态系统正在以工程速度全面拥抱Agent化。
七、总结
Gemini Omni代表了AI视频生成的下一个进化阶段。它不仅是Veo的替代品,更是Google对”世界模型”愿景的关键一步。
核心亮点:
- 全模态输入输出:从任何输入创造任何内容
- 对话式视频编辑:革命性的交互方式
- 物理世界理解:理解动能、重力等物理规律
- 精准去水印:创作者的游戏规则改变者
- SynthID水印:AI内容透明标准
待改进之处:
- 逻辑漏洞仍存在(面条飞舞等问题)
- 计算成本高昂
- 时长限制(目前仅10秒)
- Logic errors still present
更强的Gemini 3.5 Pro计划于2026年6月发布,Gemini Omni Pro也在路线图中。这场AI竞赛,才刚刚开始。
Gemini Omni不只是视频生成工具——它是Google向”世界模型”方向迈进的关键一步,是AI从对话工具转向跨应用执行任务的智能体的里程碑。
