Gemini Omni:推理和创造合二为一

同一天,Google DeepMind 还发布了 Gemini Omni——一款让"边想边做"变成现实的多模态模型。

它的定位很有意思:把 Gemini 的推理能力和内容创作能力统一到一个模型里。输入可以是文字、图片、音频、视频,输出同样覆盖这些模态。

一句话总结:这是一个能理解物理世界、能按自然语言指令编辑视频的 AI。

核心能力:对话式视频编辑

Gemini Omni 最大的亮点是视频编辑。官方的说法是 "Think of Gemini Omni like Nano Banana, but for video"——你可以像聊天一样,一步步对视频进行编辑修改,而且每次修改都保持一致性。

几个官方演示场景:

  • 自然语言编辑:说"把路灯在音乐响起时逐个亮起",视频就跟着改
  • 参考图像编辑:给一张参考图,让视频按照图的风格调整
  • 多轮迭代:先改场景、再改机位、改光影——每一步都在上一轮基础上叠加
  • 物理理解:AI 懂得物体的物理属性,不是瞎改——换背景、加物体都能保持真实感

技术层面

Gemini Omni 把推理和生成融合在同一个架构里,不是分开的"先理解再画"的流水线。这意味着它创作时能理解前后文逻辑——你要"让小提琴消失,但演奏动作不变",它不会把整段重生成别的。

可以用参考素材(图片、文字、音频、视频)作为输入,融合到一个一致的输出里。

已集成到 Gemini App 和 Google Flow 中使用。

对行业的影响

Gemini Omni 的发布把 AI 视频生成从"抽卡式生成"(反复生成等碰运气的)推进到"对话式编辑"阶段。这对内容创作、广告制作、影视前期等领域的冲击会很大。

和 Sora 比起来,Gemini Omni 更强调交互式编辑和自然语言控制,而不是单纯的文本到视频生成。

HN 反响

帖子 271 分,讨论热度不错。不少人把它和 Runway、Sora、Pika 等做对比。争议在于实际效果——官方演示视频质量很高,但不少人怀疑在实际使用中能不能保持同样的水准。

不过"对话式编辑+多轮一致性"这个方向,大家普遍认为是正确的路子。