Google Gemini Omni 发布：当推理遇见创造，视频编辑进入对话时代

Gemini Omni：推理和创造合二为一

同一天，Google DeepMind 还发布了 Gemini Omni——一款让"边想边做"变成现实的多模态模型。

它的定位很有意思：把 Gemini 的推理能力和内容创作能力统一到一个模型里。输入可以是文字、图片、音频、视频，输出同样覆盖这些模态。

一句话总结：这是一个能理解物理世界、能按自然语言指令编辑视频的 AI。

Gemini Omni 最大的亮点是视频编辑。官方的说法是 "Think of Gemini Omni like Nano Banana, but for video"——你可以像聊天一样，一步步对视频进行编辑修改，而且每次修改都保持一致性。

几个官方演示场景：

Gemini Omni 把推理和生成融合在同一个架构里，不是分开的"先理解再画"的流水线。这意味着它创作时能理解前后文逻辑——你要"让小提琴消失，但演奏动作不变"，它不会把整段重生成别的。

可以用参考素材（图片、文字、音频、视频）作为输入，融合到一个一致的输出里。

已集成到 Gemini App 和 Google Flow 中使用。

Gemini Omni 的发布把 AI 视频生成从"抽卡式生成"（反复生成等碰运气的）推进到"对话式编辑"阶段。这对内容创作、广告制作、影视前期等领域的冲击会很大。

和 Sora 比起来，Gemini Omni 更强调交互式编辑和自然语言控制，而不是单纯的文本到视频生成。

帖子 271 分，讨论热度不错。不少人把它和 Runway、Sora、Pika 等做对比。争议在于实际效果——官方演示视频质量很高，但不少人怀疑在实际使用中能不能保持同样的水准。

不过"对话式编辑+多轮一致性"这个方向，大家普遍认为是正确的路子。