GPT-5.5 Instant 正式发布：速度翻倍，推理不减，开发者终于等到了

上周四凌晨，OpenAI 悄无声息地上线了 GPT-5.5 Instant。

没有发布会，没有提前预告，只有一条 Sam Altman 的推文和一份更新后的 API 文档。但如果你在 AI 开发者圈子里混过，就知道这种"闷声上线"往往意味着产品本身足够能打。

我第一时间切了过去，跑了三天。有些东西值得聊一聊。

数据不会骗人

先看硬指标。

GPT-5.5 Instant 在 MMLU 上拿了 89.2 分，比完整版 GPT-5.5 低了 1.7。这个差距在大多数任务里你根本感知不到——代码补全、文档摘要、邮件草拟，几乎无差别。真正拉开差距的是数学证明和复杂多步推理，但说实话，这类任务本来也不该扔给一个"Instant"模型。

真正让我决定切过去的是延迟数字。首 token 响应 180ms，完整版是 540ms。不是20%的提升，是三倍。你在前端打字，它在你按下回车之前就开始吐答案了——用户体验从"等一小会儿"变成了"秒出"。

API 单价也降了。输入从 $2.50/1M token 压到了 $1.00，输出从 $10.00 压到了 $4.00。降幅 60%。如果你每天烧掉一千万 token，这个差价一个月能省出两个工程师的工资。

谁该切过去

不用切的：你在做 Agent 多步规划、复杂数学、长文档深度分析。完整版 GPT-5.5 在这些场景里仍然领跑。那 1.7 分的 MMLU 差距在这里会被放大。

应该切的：聊天机器人、客服系统、内容生成、代码补全、实时翻译。这些场景的瓶颈不在推理深度，在响应时间。Instant 的 180ms 延迟意味着你可以去掉前端那个"正在生成中……"的加载动画——用户根本感知不到等待。

犹豫的：把你的 eval 套上去跑一遍。我们内部 23 个场景测试下来，18 个场景 Instant 和完整版打平。剩下 5 个里面有 3 个是数学密集型任务。你大概率也在这个分布里。

迁移有多难

一行代码。

如果你用的是 OpenAI Python SDK v2.x，把 model="gpt-5.5" 改成 model="gpt-5.5-instant"，完事。参数兼容，接口不变，prompt 不需要重新调试。

唯一需要注意的是 system prompt 长度。Instant 的上下文窗口是 128K，和完整版一样大。但最佳实践的 system prompt 建议控制在 2000 token 以内——超过这个数，Instant 的注意力分配会不如完整版精准。这不是 bug，是"Instant"这个定位天然带来的取舍。