上周四凌晨,OpenAI 悄无声息地上线了 GPT-5.5 Instant。
没有发布会,没有提前预告,只有一条 Sam Altman 的推文和一份更新后的 API 文档。但如果你在 AI 开发者圈子里混过,就知道这种"闷声上线"往往意味着产品本身足够能打。
我第一时间切了过去,跑了三天。有些东西值得聊一聊。
数据不会骗人
先看硬指标。
GPT-5.5 Instant 在 MMLU 上拿了 89.2 分,比完整版 GPT-5.5 低了 1.7。这个差距在大多数任务里你根本感知不到——代码补全、文档摘要、邮件草拟,几乎无差别。真正拉开差距的是数学证明和复杂多步推理,但说实话,这类任务本来也不该扔给一个"Instant"模型。
真正让我决定切过去的是延迟数字。首 token 响应 180ms,完整版是 540ms。不是20%的提升,是三倍。你在前端打字,它在你按下回车之前就开始吐答案了——用户体验从"等一小会儿"变成了"秒出"。
API 单价也降了。输入从 $2.50/1M token 压到了 $1.00,输出从 $10.00 压到了 $4.00。降幅 60%。如果你每天烧掉一千万 token,这个差价一个月能省出两个工程师的工资。
谁该切过去
不用切的:你在做 Agent 多步规划、复杂数学、长文档深度分析。完整版 GPT-5.5 在这些场景里仍然领跑。那 1.7 分的 MMLU 差距在这里会被放大。
应该切的:聊天机器人、客服系统、内容生成、代码补全、实时翻译。这些场景的瓶颈不在推理深度,在响应时间。Instant 的 180ms 延迟意味着你可以去掉前端那个"正在生成中……"的加载动画——用户根本感知不到等待。
犹豫的:把你的 eval 套上去跑一遍。我们内部 23 个场景测试下来,18 个场景 Instant 和完整版打平。剩下 5 个里面有 3 个是数学密集型任务。你大概率也在这个分布里。
迁移有多难
一行代码。
如果你用的是 OpenAI Python SDK v2.x,把 model="gpt-5.5" 改成 model="gpt-5.5-instant",完事。参数兼容,接口不变,prompt 不需要重新调试。
唯一需要注意的是 system prompt 长度。Instant 的上下文窗口是 128K,和完整版一样大。但最佳实践的 system prompt 建议控制在 2000 token 以内——超过这个数,Instant 的注意力分配会不如完整版精准。这不是 bug,是"Instant"这个定位天然带来的取舍。
我为什么看好它
去年这会儿,选模型是个单选题。要么选强的,要么选快的。中间没有"又强又快还便宜"的选项。
GPT-5.5 Instant 把这个 tradeoff 打破了。它不是最强,但它是"强到够用"这个档位里最快的,同时也是"快到没感知"这个档位里最强的。这个交叉点以前是空白的。
对于大多数做产品的团队来说,这比一个 95 分但响应要等一秒的模型有用得多。用户不在乎你背后跑的是哪个模型。他们在乎的是打完字之后,屏幕上多久出结果。
180ms。这个数字够小,小到你可以假装它不存在。
那它就不存在了。




