C
ChaoBro

Google I/O 前瞻爆料:Gemini "Omni" 多模态模型 + 3.5 Flash + 全新视觉模型,三连发预热

Google I/O 前瞻爆料:Gemini "Omni" 多模态模型 + 3.5 Flash + 全新视觉模型,三连发预热

核心判断

距离 Google I/O 大会仅剩数天,关于 Gemini 产品线的泄露信息密集涌现。核心信号:Google 不再满足于做”更好的聊天机器人”,而是要构建覆盖文本、视频、视觉的全场景 AI 基础设施

泄露信息涉及三条产品线,分别对应三种不同的市场定位——这不是单一的模型升级,而是一次战略级的产品矩阵重构。

三条泄露产品线

1. Gemini “Omni” 多模态模型

属性信息
定位超深度多模态理解与生成
关键能力超越当前 Veo 的视频生成质量,支持视频理解+生成的双向能力
当前状态内部测试中,UI 已出现 “powered by Omni” 标识
发布窗口Google I/O 大会期间或 shortly after

Omni 的核心价值在于统一了理解和生成。目前的 AI 模型通常是单向的——能理解视频但不能生成,或者能生成但不能理解。Omni 如果实现双向能力,将成为第一个真正的”全模态”模型。

泄露的 UI 截图显示 “powered by Omni” 的标识,说明 Google 计划将其作为底层引擎集成到多个产品中,而非作为一个独立的聊天界面。

2. Gemini 3.5 Flash

属性信息
定位高速、低成本的日常推理模型
当前状态已在内部测试
预计发布Google I/O 大会
竞品对标GPT-4o mini, Claude Haiku

3.5 Flash 延续 Google “Flash” 系列的定位——不是追求最强的智能,而是追求最快的响应速度和最低的成本。这对于需要大规模部署 AI 的企业用户来说是最务实的选择。

3. “spark Robin” 视觉模型

属性信息
定位专注于图像/视觉理解的新模型
当前状态泄露阶段,细节有限
可能用途Google Lens 升级、Photos 智能搜索、Android 系统级视觉

“spark Robin” 的命名暗示它属于 Google 的 “Spark” 模型系列(Muse Spark 是该系列旗舰)。如果这是一款独立的视觉模型,Google 可能会将其集成到 Android 系统中,实现系统级的 AI 视觉能力。

Google I/O 2026 可能发布的全貌

产品定位目标用户
Gemini 3.5 Flash高速低成本推理开发者、企业批量部署
Gemini Omni全模态理解+生成高端用户、创意行业
spark Robin视觉专项模型移动端、系统集成
Daily BriefAI 每日简报个人用户
Cosmo AI (Nano)端侧 AI 应用移动设备
AI Avatars数字人社交、客服场景

对比竞品格局

公司多模态战略当前最强
GoogleOmni 统一理解+生成Gemini 2.5 Pro
OpenAIGPT-4o 多模态 + Veo 视频GPT-5.5
AnthropicClaude 原生多模态Claude 5 (Mythos)
阿里Qwen-VL + 通义万相Qwen3.6-Max

Google 的 Omni 策略与 OpenAI 的 GPT-4o 最为相似——都追求一个模型搞定所有模态。但与 OpenAI 的”一个超大模型”不同,Google 选择了多模型矩阵策略:Flash 跑量、Omni 攻坚、Robin 专项。这种策略的优势是灵活性和成本控制,劣势是生态整合难度更高。

行动建议

对开发者

  • 关注 Flash 3.5 的 API 定价:如果延续 Flash 系列的低价策略,可能是批量部署的最佳选择
  • 评估 Omni 的视频能力:如果 Veo 级别的视频生成能力开放 API,将大幅降低视频内容生产门槛
  • 准备多模型路由:Google 的多模型矩阵意味着需要智能路由策略来选择最合适的模型

对企业

  • Google 生态用户优先:已经使用 Google Workspace 的企业将最先体验到 Gemini 的深度集成
  • 视频内容生产者:Omni 的视频生成能力可能改变视频内容的生产流程
  • 移动端开发者:Cosmo AI (Nano) 的端侧能力值得关注,尤其是隐私敏感场景

风险提醒

目前所有信息均来自泄露,非官方确认。Google I/O 的实际发布内容可能与泄露信息存在差异。历史上 Google 也曾在 I/O 前泄露过多条信息但最终未发布的先例。建议以官方发布为准。