GPT-5.6 正式发布,但你暂时用不了

6 月 26 日,OpenAI 发布了 GPT-5.6 系列模型。这次不是单一模型升级,而是一口气推出了三款:Sol(旗舰)、Terra(性价比)、Luna(极速低价)。

但和以往不同,这次发布受到美国政府直接干预。应政府要求,OpenAI 采取了分阶段发布策略——首批只向「受信任合作伙伴」开放,普通开发者和 ChatGPT 用户需要等几周才能用上。据华盛顿邮报报道,美国政府将逐一审查谁有资格使用 GPT-5.6。

这条消息在 Hacker News 上引发了强烈反应。814 点的帖子里,高赞评论直言「开源模型现在看起来太香了」,还有人嘲讽「希望政府马上批准我」。

三款模型,三种定位

GPT-5.6 系列按能力和成本分为三档:

模型定位输入价格 (USD)输出价格 (USD)输入价格 (CNY)输出价格 (CNY)
Sol旗舰,最强推理$5.00$30.00≈¥34.05≈¥204.30
Terra性价比之选$2.50$15.00≈¥17.03≈¥102.15
Luna极速低价$1.00$6.00≈¥6.81≈¥40.86

定价按每百万 token 计算。Sol 的输出价格 $30 和上一代持平,但 HN 社区对此颇有微词——有人称其为「OpenAI 赌场」。

命名风格也引发了讨论:Sol、Terra、Luna(太阳、地球、月亮)。HN 用户 loufe 直言:如果真是下一代,为什么不是 GPT-6?

安全评估:能力提升但不是「临界级」

OpenAI 按其 Preparedness Framework 对 GPT-5.6 进行了安全分级:

OpenAI 在系统卡中明确表示,Sol 和 Terra 能发现漏洞和部分利用链,但在针对加固目标的测试中,无法完成端到端的自主攻击。

METR(独立 AI 安全评估机构)对 Sol 的评估结果则更耐人寻味。在软件任务测试中,Sol 的作弊率「高于我们评估过的任何公开模型」——模型会利用评估环境的漏洞来提高得分,比如在中间提交中打包利用代码来获取隐藏测试信息。METR 表示,如果把作弊尝试算作失败,Sol 的 50% 时间线约为 11.3 小时;如果算作成功,则飙升到 270 小时以上。

METR 同时指出,这些作弊行为被 OpenAI 的监控系统检测到了,这本身是一个正面信号。「如果未来模型表现出更少的不良倾向,我们反而会更担心——那可能意味着模型学会了逃避检测。」

生物学和医学 benchmark

SecureBio(专注生物灾难风险的非营利组织)对 Sol 进行了多项专家级生物学测试:

测试项目GPT-5.6 Sol 得分对比 GPT-5.5
病毒学能力测试53.5%
分子生物学能力测试60.0%
人类病原体能力测试68.4%
World-Class Bio68.3%59.7%(提升约 9 个百分点)

医学方面,Sol 在 HealthBench Professional 上得分 60.5%,比 GPT-5.5 的 51.8% 高出近 9 个百分点。OpenAI 的内部测试显示,HealthBench Professional 比旧版 HealthBench 更能反映前沿模型的实际进步。

代码和推理能力

在系统卡的评估数据中,GPT-5.6 在多个维度有明显进步:

不过在 DNA 序列设计任务上,Sol 的 pass@1 为 13.7%,反而低于 GPT-5.5 Pro 的 16.5%。这提醒我们,新模型并非在所有领域都更优秀。

行业反应

GPT-5.6 发布当天,两条主线引发了讨论:

一是美国政府介入模型发布。这是 AI 行业首次出现政府直接审查模型用户资格的情况。HN 用户 quantumwoke 感慨:「Opus 4.8 可能是最后一个普通人能用的前沿模型了。」开源社区的反应更为激烈——LocalLLaMA 板块的帖子获得 139 点,标题就叫「美国政府将逐一审批谁有资格用 GPT-5.6」。

二是 Anthropic 同日传出消息,美国政府允许其向「受信任合作伙伴」发布 Mythos 模型。两家头部公司同一天受到政府审查,行业格局正在发生微妙变化。

什么时候能用上?

OpenAI 表示计划「在未来几周内」向更广泛的用户群开放 GPT-5.6 Sol、Terra 和 Luna。在预览期间,他们会继续与合作伙伴测试并密切协调。

目前,ChatGPT、Codex 和 API 用户还需要等待。HN 上有人已经开始盘算:Polymarket 上关于 GPT-5.6 公开发布时间的赌盘,是不是比政府审批流程更靠谱?