Gemini 3.5 Flash 发布:不止更快,还会干活

5月19日的 Google I/O 上,Google DeepMind 正式发布了 Gemini 3.5 Flash。这是 Gemini 3.5 系列的第一款模型,主打"前沿智能 + 行动能力"——不只是回答问题,还能帮你执行实际任务。

文章由 Koray Kavukcuoglu(Google DeepMind CTO)、Jeff Dean(首席科学家)、Oriol Vinyals 和 Noam Shazeer 联合署名,分量不小。

速度是亮点,智能也没落下

3.5 Flash 的定位很有意思:它跑得和 Flash 系列一样快,但智能水平能跟旗舰模型掰手腕。

官方给出的几个关键基准数据:

  • Terminal-Bench 2.1(终端任务基准):76.2%
  • GDPval-AA(代码生成):1656 Elo
  • MCP Atlas(工具调用):83.6%
  • CharXiv Reasoning(多模态推理):84.2%

这些指标全部超过了上一代的 Gemini 3.1 Pro。输出速度方面,官方称比其他前沿模型快 4 倍。

真正能做事的 AI

3.5 Flash 最大的变化在"行动"能力上。它原生支持工具调用和 Agent 工作流,能自主完成多步骤任务——写代码、操作终端、调用 API、处理数据,不需要人类一步步指挥。

Google 为此推出了一个叫 Antigravity 的 Agent 开发平台,和 3.5 Flash 一起上线。开发者可以在 Google AI Studio 和 Android Studio 里直接调用。

上下文窗口 1M token,处理长文档、大型代码库都没问题。

定价方面

从 Google AI 官网和 HN 上的讨论来看,标准版定价 $0.75/百万输入 token、$4.50/百万输出 token。开启思考模式(thinking)的话,价格翻倍到 $1.50/$9.00。

这个价格在 HN 上引起了不少讨论——"Flash 卖 Pro 的价"。不过 $4.50 的输出定价已经包含了思考 token,不算离谱。对比 GPT-4o 的 $10/百万输出,还是有竞争力的。

已全量上线

3.5 Flash 已经可以在 Gemini App、Google Search 的 AI Mode、Google AI Studio 和 Android Studio 中使用。企业用户也可以通过 Gemini Enterprise 和 Enterprise Agent Platform 访问。

Google 同时透露,3.5 Pro 已经在内部使用,下个月就会公开推出。

HN 社区怎么看

Hacker News 上帖子拿到了 589 分,68 条评论。看法挺分裂的:

  • 认可派:基准测试确实好看,速度优势明显,性价比不错
  • 质疑派:觉得基准测试有针对性——避开了 Claude 擅长的编码基准
  • 还有人说"价格涨了不少但确实能打"

总的来说,3.5 Flash 是目前性价比最高的 Agent 模型之一。作为 Flash 系列的升级版,它的表现远超预期,尤其在工作流自动化和工具调用场景下。接下来就看 3.5 Pro 能不能在推理深度上更进一步了。