Google I/O 2026深度测评：Gemini Omni正式发布，93个Agent 12小时构建操作系统

2026年5月19日，Google I/O大会如期而至。这场被称为”谷歌历年发布密度最高的一届”大会，由Google DeepMind负责人德米斯·哈萨比斯亲自登台，正式发布Gemini Omni。同时亮相的还有Gemini 3.5 Flash、Antigravity 2.0、Gemini Spark，以及Google搜索25年来最大升级。本文为你带来Gemini Omni的深度测评。

延伸阅读：Google Gemini Omni 深度解析：谷歌全模…、Seedance 2.0 Vibe Creating完全…、Seedance 2.0产品选择指南：字节全系产品权限差…

一、Gemini Omni是什么？

Gemini Omni是Google推出的全模态生成模型，由德米斯·哈萨比斯亲自宣布发布。官方定位是“可从任何输入创建任何内容的全新模型”——它不只是视频生成工具，更是Google向”世界模型”方向迈进的关键一步。

Gemini Omni能把数学推导、蛋白质折叠等抽象概念，转化为符合物理逻辑的视频。

Gemini Omni vs Nano Banana：核心区别

维度	Nano Banana（前代）	Gemini Omni（本代）
输入形式	图像为主	图像+文字+视频+音频任意组合
输出形式	图像	视频（首发），图像/音频路线图中
编辑方式	单轮Prompt	多轮对话式连续编辑
物理理解	有限	Gemini世界知识注入，支持重力/动能等物理推理
水印	—	SynthID数字水印内嵌于所有生成视频

二、核心能力深度测评

1. 视频生成：物理世界的理解者

Gemini Omni的核心突破在于对物理世界的理解。Google强调，Veo、Nano Banana、Genie等模型已经能生成视频、图片和交互式模拟，但Gemini Omni更进一步，开始处理动能、重力等更接近物理世界的问题。

现场演示案例：

蛋白质折叠解释视频：输入”用粘土动画解释蛋白质折叠”，Omni生成了从氨基酸链折叠成α螺旋和β折叠的每一步视频，科学准确，视觉为精致定格动画
手掌变黑洞：拍摄一段手掌视频，加一句话”让手掌上出现黑洞”，结果手掌上精准出现黑洞效果
场景风格转换：街景视频加一句话，变成赛博朋克场景

2. 对话式视频编辑：革命性的交互方式

这是Gemini Omni最具革命性的功能。与传统的单轮Prompt不同，Omni支持多轮对话式连续编辑：

上传自己的视频
用对话方式修改风格、加入元素、调整细节
在原有视频基础上反复叠加指令
保持角色和物理逻辑的连贯性

演示中还展示了更神奇的能力：用户可以把一个普通圆形转成黑洞，把夜晚散步场景变成更具戏剧感的画面。

3. 物体替换与去水印

在早期泄露测试中，Omni就展示了令人惊叹的编辑能力：

物体替换：将视频中的意大利面替换为冬阴功汤
精准去水印：直接对话去除其他AI生成视频中的动态水印，画面毫无破绽
风格化输出：动漫风格的视频，蓝色火焰特效、打斗动作线条，每一帧都像专业动画师手绘

4. 局限性：逻辑漏洞仍存

尽管表现惊艳，但早期测试也暴露了一些问题：

在复现”威尔·史密斯吃面”场景时，Omni生成的视频虽更接近真人效果，但存在面条在口腔外飞舞等物理错误
计算成本高昂：生成2个视频就消耗AI Pro计划86%的每日额度
目前仅支持10秒短片

三、Google I/O 2026全明星阵容

Gemini Omni只是本次大会的一道开胃菜。Google同时发布了四大核心产品：

产品	类别	状态
Gemini 3.5 Flash	旗舰语言/Agent模型	即日起上线
Gemini Omni Flash	全模态生成模型	即日起上线
Antigravity 2.0	Agent开发平台	即日起可用
Gemini Spark	个人AI Agent	下周美国Beta

Gemini 3.5 Flash：极速编码Agent

Gemini 3.5 Flash是本次大会的另一重磅发布，官方定位为“迄今为止最强的编码、智能体模型”。

基准测试	得分
Terminal-Bench 2.1（编码能力）	76.2%
GDPval-AA（真实世界Agent任务）	1656 Elo
MCP Atlas（大规模工具使用）	83.6%
CharXiv Reasoning（多模态推理）	84.2%

速度表现：289 tokens/秒，比GPT-5.5和Claude Opus 4.7快4倍以上。在Antigravity中经过专门优化后，速度可达到12倍。

成本优势：执行长程任务的成本通常低于其他前沿模型50%以上。

Antigravity 2.0：93个Agent 12小时构建操作系统

Antigravity 2.0是本次I/O最受开发者关注的发布之一，从IDE形态进化为独立桌面应用，彻底拥抱Agent-first设计。

搭载Gemini 3.5 Flash，93个Agent并行工作，发出超15000次模型请求，处理26亿token，12小时后从零构建出功能完整的操作系统内核（调度程序、内存管理、文件系统）。API总费用不到1000美元。

更令人震惊的是：这个系统成功运行了DOOM。由于最初缺少视频和键盘驱动，Antigravity又继续生成相关代码并修复，让DOOM能够运行。

Gemini Spark：7×24小时个人AI管家

Gemini Spark是Google定位为“个人AI Agent”的产品，运行在Google Cloud的专用虚拟机上，合上笔记本电脑仍持续工作。

7×24小时在线，由Gemini 3.5 Flash + Antigravity框架驱动
深度整合谷歌全家桶：Gmail、Docs、Sheets、Slides、Google Calendar
支持语音多任务：一次说出多个任务，Spark自动拆解并行执行
本周面向部分测试者开放，下周以Beta形式面向美国AI Ultra订阅用户推出

四、横向对比：Gemini Omni vs 竞品

维度	Gemini Omni	OpenAI Sora 2	Seedance 2.0
编辑能力	对话式多轮编辑	不支持	有限
物理理解	强（Gemini世界知识）	一般	一般
输出时长	10秒	最长60秒	更长
文本渲染	业界领先	较差	中等
去水印	支持	不支持	不支持
价格	待公布	API only	商业授权
生态集成	Gemini/Flow/YouTube	独立App	独立服务

五、定价与可用性

Gemini Omni

Omni Flash：即日起上线，接入Gemini App、Google Flow、YouTube Shorts
Omni Pro：路线图中
API：七牛云等已上线

订阅计划调整

档位	原价	新价
AI Ultra Beta（Spark入口）	—	$100/月（新增）
AI Ultra最高档	$250/月	$200/月（降价$50）

六、行业影响与展望

回顾本次I/O，真正让行业感到震撼的不是某一个具体产品，而是三块拼图同时到位：

Gemini Omni：全模态理解与生成，一句话变成一个世界
Antigravity 2.0 + 3.5 Flash：93个Agent从零构建操作系统，AI不再只是工具
Gemini Spark：7×24小时自主执行，AI开始替代人类”打开App”这个动作本身

一个更值得关注的数据是：Google内部token处理量从3月的5000亿/天飙升至现在的3万亿/天。这个数字是比任何基准测试都更真实的市场信号：整个谷歌生态系统正在以工程速度全面拥抱Agent化。

七、总结

Gemini Omni代表了AI视频生成的下一个进化阶段。它不仅是Veo的替代品，更是Google对”世界模型”愿景的关键一步。

核心亮点：

全模态输入输出：从任何输入创造任何内容
对话式视频编辑：革命性的交互方式
物理世界理解：理解动能、重力等物理规律
精准去水印：创作者的游戏规则改变者
SynthID水印：AI内容透明标准

待改进之处：

逻辑漏洞仍存在（面条飞舞等问题）
计算成本高昂
时长限制（目前仅10秒）
Logic errors still present

更强的Gemini 3.5 Pro计划于2026年6月发布，Gemini Omni Pro也在路线图中。这场AI竞赛，才刚刚开始。

Gemini Omni不只是视频生成工具——它是Google向”世界模型”方向迈进的关键一步，是AI从对话工具转向跨应用执行任务的智能体的里程碑。

无矩AI

Google I/O 2026深度测评：Gemini Omni正式发布，93个Agent 12小时构建操作系统

💜 火山引擎 · 专属邀请