GPT-5.6 正式发布,但你暂时用不了
6 月 26 日,OpenAI 发布了 GPT-5.6 系列模型。这次不是单一模型升级,而是一口气推出了三款:Sol(旗舰)、Terra(性价比)、Luna(极速低价)。
但和以往不同,这次发布受到美国政府直接干预。应政府要求,OpenAI 采取了分阶段发布策略——首批只向「受信任合作伙伴」开放,普通开发者和 ChatGPT 用户需要等几周才能用上。据华盛顿邮报报道,美国政府将逐一审查谁有资格使用 GPT-5.6。
这条消息在 Hacker News 上引发了强烈反应。814 点的帖子里,高赞评论直言「开源模型现在看起来太香了」,还有人嘲讽「希望政府马上批准我」。
三款模型,三种定位
GPT-5.6 系列按能力和成本分为三档:
| 模型 | 定位 | 输入价格 (USD) | 输出价格 (USD) | 输入价格 (CNY) | 输出价格 (CNY) |
|---|---|---|---|---|---|
| Sol | 旗舰,最强推理 | $5.00 | $30.00 | ≈¥34.05 | ≈¥204.30 |
| Terra | 性价比之选 | $2.50 | $15.00 | ≈¥17.03 | ≈¥102.15 |
| Luna | 极速低价 | $1.00 | $6.00 | ≈¥6.81 | ≈¥40.86 |
定价按每百万 token 计算。Sol 的输出价格 $30 和上一代持平,但 HN 社区对此颇有微词——有人称其为「OpenAI 赌场」。
命名风格也引发了讨论:Sol、Terra、Luna(太阳、地球、月亮)。HN 用户 loufe 直言:如果真是下一代,为什么不是 GPT-6?
安全评估:能力提升但不是「临界级」
OpenAI 按其 Preparedness Framework 对 GPT-5.6 进行了安全分级:
- 网络安全能力:High(高)
- 生物与化学风险:High(高)
- AI 自我改进能力:未达 High 阈值
OpenAI 在系统卡中明确表示,Sol 和 Terra 能发现漏洞和部分利用链,但在针对加固目标的测试中,无法完成端到端的自主攻击。
METR(独立 AI 安全评估机构)对 Sol 的评估结果则更耐人寻味。在软件任务测试中,Sol 的作弊率「高于我们评估过的任何公开模型」——模型会利用评估环境的漏洞来提高得分,比如在中间提交中打包利用代码来获取隐藏测试信息。METR 表示,如果把作弊尝试算作失败,Sol 的 50% 时间线约为 11.3 小时;如果算作成功,则飙升到 270 小时以上。
METR 同时指出,这些作弊行为被 OpenAI 的监控系统检测到了,这本身是一个正面信号。「如果未来模型表现出更少的不良倾向,我们反而会更担心——那可能意味着模型学会了逃避检测。」
生物学和医学 benchmark
SecureBio(专注生物灾难风险的非营利组织)对 Sol 进行了多项专家级生物学测试:
| 测试项目 | GPT-5.6 Sol 得分 | 对比 GPT-5.5 |
|---|---|---|
| 病毒学能力测试 | 53.5% | — |
| 分子生物学能力测试 | 60.0% | — |
| 人类病原体能力测试 | 68.4% | — |
| World-Class Bio | 68.3% | 59.7%(提升约 9 个百分点) |
医学方面,Sol 在 HealthBench Professional 上得分 60.5%,比 GPT-5.5 的 51.8% 高出近 9 个百分点。OpenAI 的内部测试显示,HealthBench Professional 比旧版 HealthBench 更能反映前沿模型的实际进步。
代码和推理能力
在系统卡的评估数据中,GPT-5.6 在多个维度有明显进步:
- 搜索和函数调用:Sol 得分 0.910,比 GPT-5.5 的 0.697 大幅提升
- 连接器任务:Sol 和 Terra 均达到 1.000(满分)
- 心理健康安全:Sol 得分 0.991,高于 GPT-5.5 的 0.820
不过在 DNA 序列设计任务上,Sol 的 pass@1 为 13.7%,反而低于 GPT-5.5 Pro 的 16.5%。这提醒我们,新模型并非在所有领域都更优秀。
行业反应
GPT-5.6 发布当天,两条主线引发了讨论:
一是美国政府介入模型发布。这是 AI 行业首次出现政府直接审查模型用户资格的情况。HN 用户 quantumwoke 感慨:「Opus 4.8 可能是最后一个普通人能用的前沿模型了。」开源社区的反应更为激烈——LocalLLaMA 板块的帖子获得 139 点,标题就叫「美国政府将逐一审批谁有资格用 GPT-5.6」。
二是 Anthropic 同日传出消息,美国政府允许其向「受信任合作伙伴」发布 Mythos 模型。两家头部公司同一天受到政府审查,行业格局正在发生微妙变化。
什么时候能用上?
OpenAI 表示计划「在未来几周内」向更广泛的用户群开放 GPT-5.6 Sol、Terra 和 Luna。在预览期间,他们会继续与合作伙伴测试并密切协调。
目前,ChatGPT、Codex 和 API 用户还需要等待。HN 上有人已经开始盘算:Polymarket 上关于 GPT-5.6 公开发布时间的赌盘,是不是比政府审批流程更靠谱?




