2026 年 5 月的第一周属于 AI 模型发布。OpenAI 把 GPT-5.5 Instant 设成了 ChatGPT 的默认模型,xAI 则甩出了 Grok 4.3——一款定价低到让竞品难受的旗舰模型。两边都在喊"我更聪明、我更便宜",但实际用起来谁更强?
坦白说,这俩不是一个重量级的对手。GPT-5.5 Instant 是 ChatGPT 免费版背后的引擎,Grok 4.3 是 xAI 拿来打 API 市场的旗舰。真要公平对决,该把完整版 GPT-5.5 拉出来。但大部分用户并不关心这个——他们就想知道:日常用 ChatGPT 免费版好,还是花点钱上 Grok 更划算?
先快速看一眼两者的基本参数。
| GPT-5.5 Instant | Grok 4.3 | |
|---|---|---|
| 定位 | ChatGPT 免费默认模型 | xAI 旗舰模型,API 主力 |
| 发布时间 | 2026.5.5 | 2026.5.1 |
| 前代 | 替代 GPT-5.3 Instant | 替代 Grok 4.2 |
| 知识截止 | 未公布 | 2025.12 |
| 上下文窗口 | 未公布(完整版 GPT-5.5 为 200K) | 100 万 token |
| 推理方式 | 按需切换 | 内置常开(always-on reasoning) |
| 多模态输入 | 文本 + 图片 | 文本 + 图片 |
性能:通用 vs 专精
OpenAI 给 GPT-5.5 Instant 定的目标是"更可靠"。内部评测显示,幻觉比前代 GPT-5.3 Instant 减少了 52.5%。医疗、法律、金融这些答错一句就出事的领域,提升尤为明显。困难对话里的不准确率也降了 37.3%。图片理解、STEM 问答、判断什么时候该调用知识库而不是联网搜索——这些方面都比上一代强。
Arena 排名的历史数据也能说明问题。前代 GPT-5.3-Chat 只在总榜排第 44 名,而 OpenAI 目前最强的聊天模型 GPT-5.2-Chat 排在第 12。GPT-5.5 Instant 应该能拉近这个差距,但具体跑分还没出来。
Grok 4.3 走的是另一条路。它最大的突破在垂直领域——CaseLaw v2 法律推理排名第一,准确率 79.3%。公司金融基准 CorpFin 也是第一。比前代 Grok 4.2 的法律推理足足跳了 25 分。这在专业场景里不是小数字。
Agent 任务上,Grok 4.3 的 GDPval-AA benchmark Elo 达到 1500,压过了 Gemini 3.1 Pro 和 GPT-5.4 mini。但一换到通用编程,短板就露出来了。ProofBench 只拿了 11%,Vending-Bench 2 这种需要持续自主行动的测试里,评测者用了"嗜睡症"这个词——模型在模拟环境里连续几天不动弹,该执行的操作不去执行。
Abacus AI 的 CEO Bindu Reddy 的评价很精炼:"和 Sonnet 4.6 一样聪明,便宜 5 倍,还更快。"这句话成立的前提是,你用它擅长的场景。
性能基准得分一拉出来,方向就很清楚。
| 基准 | GPT-5.5 Instant | Grok 4.3 |
|---|---|---|
| 幻觉率降幅(vs 前代) | −52.5% | 未公布 |
| 困难对话不准确率降幅 | −37.3% | 未公布 |
| CaseLaw v2(法律推理) | 未公布 | #1(79.3%) |
| CorpFin(公司金融) | 未公布 | #1 |
| GDPval-AA(Agent 任务) | 未公布 | Elo 1500 |
| ProofBench(数学证明) | 未公布 | 11%(弱) |
| Vending-Bench 2(持续行动) | 未公布 | "嗜睡症"级表现 |
| Arena 文本总榜(前代参考) | 前代第 44 名,预期大幅提升 | 未公布 |
价格:不在一个数量级
API 定价是 Grok 4.3 最锋利的武器。输入每百万 token 收 1.25 美元,输出 2.50 美元。GPT-5.5 完整版呢?输入 5 美元,输出 30 美元。差了 4 到 12 倍。
放在整个市场里看,Grok 4.3 的定价紧挨着中国的开源模型,离美国的商业旗舰很远。
从 VentureBeat 整理的价格表里摘几个关键对比(单位:美元/百万 token):
| 模型 | 输入 | 输出 | 价差 vs Grok 4.3 |
|---|---|---|---|
| Grok 4.3 | $1.25 | $2.50 | — |
| DeepSeek V4 Pro | $1.74 | $3.48 | 贵 40% |
| Gemini 3 Flash | $0.50 | $3.00 | 输出贵 20% |
| Gemini 3 Pro | $2.00 | $12.00 | 4.8 倍 |
| GPT-5.4 | $2.50 | $15.00 | 6 倍 |
| Claude Opus 4.7 | $5.00 | $25.00 | 10 倍 |
| GPT-5.5(完整版) | $5.00 | $30.00 | 12 倍 |
xAI 还加了几个有意思的计费项。推理 token——模型"思考"过程产生的 token——和普通输出一个价。Prompt 缓存便宜到 $0.20 每百万 token。工具调用按次收费,Web Search 每千次 5 美元。还有一个可能是行业首创的"安全拦截费":被安全过滤器挡掉的请求,每次收 0.05 美元。
GPT-5.5 Instant 这边没有单独定价,因为它是 ChatGPT 免费版的默认模型。OpenAI 也没额外收推理费。
特色功能:记忆溯源 vs 全栈 Agent
GPT-5.5 Instant 带来一个叫 Memory Sources 的功能。ChatGPT 回答你的时候,可以点开看它参考了哪些历史对话、哪些上传文件。你能删掉过时信息,也能纠正错误记忆。发出去的对话链接不会暴露这些源。
但 OpenAI 自己承认这个功能不完整——"可能不会显示所有影响回答的因素"。HiddenLayer 的首席信任官 Malcolm Harkins 说得很客观:方向对,但光有这个不够,真正的价值取决于它和企业的安全、治理、权限控制、审计系统怎么打通。
Grok 4.3 的打法完全不同。它从底层就被设计成能自主行动的 Agent。100 万 token 的上下文窗口,内置推理链常开,每个查询都先思考再回答。早期用户晒出来的案例挺唬人:6 分 22 秒生成了一个带多页仪表盘和自动计算公式的 Excel 战斗分析器;能输出带品牌排版的 12 页 PDF;能设计 9 页的 PPT,结构是暗色调标题配浅色内容。
工具生态也配齐了:联网搜索、X 平台搜索、Python 沙箱执行、RAG 文件检索。这些工具模型可以自主决定要不要调用。
语音是另一块 Grok 的差异化武器。Custom Voices 能拿 120 秒的参考音频克隆出一个声音,克隆出来之后可以用在 TTS 和 Voice Agent API 上。作者自己试过,读几段不相关的对话稿,出来的声音"诡异地和本尊一模一样"。Voice Agent 每小时 3 美元,卡在 ElevenLabs 和 OpenAI TTS 之间的价格带上。TTS 是每百万字符 4.20 美元,STT 实时转写每小时 0.20 美元。
注意这个语音克隆目前只在美国可用,伊利诺伊州除外——州级生物识别法规的问题。
功能层面的差异概括一下:
| 功能 | GPT-5.5 Instant | Grok 4.3 |
|---|---|---|
| 记忆溯源 | 可查看引用来源,可删除/纠正 | 无 |
| 内置推理链 | 按需切换 | 常开,每次查询都思考 |
| 网页搜索 | 支持 | 支持(含 X 平台搜索) |
| 代码执行 | 支持 | Python 沙箱 |
| 文件检索(RAG) | 支持 | 支持 |
| Excel 生成 | 不支持 | 支持(含多页仪表盘、公式) |
| PDF 生成 | 不支持 | 支持(含品牌排版) |
| PPT 生成 | 不支持 | 支持 |
| 语音克隆 | 无 | 120 秒样本,商用授权 |
| Voice Agent API | 无 | $3/小时 |
| 提示缓存 | 支持 | $0.20/百万 token |
| 审计完整性 | 部分(不展示全部引用) | 未公布 |
风险和争议
Grok 系列的品牌包袱不轻。此前的 Grok 版本出过不少事故:在 X 平台上自称"MechaHitler"并输出反犹内容、生成性化深度伪造图像、引用种族冲突、被指输出内容呼应马斯克本人的政治立场。甚至一度被发现在 X 平台的实现中,回答之前先去查马斯克的账号。Grok 4.3 在多大程度上修掉了这些问题,目前还没有独立的完整审计。
OpenAI 这边更多是透明度问题。Memory Sources 只展示部分上下文来源,模型说它参考了 A,实际可能参考了 B。如果企业把 ChatGPT 用在需要完全可审计的场景,这种"竞争性上下文日志"会制造困扰。
结论:选哪个?
搞清楚你用它干什么。场景决定答案。
| 你的需求 | 选哪个 | 理由 |
|---|---|---|
| 日常对话,少出错 | GPT-5.5 Instant | 幻觉率 −52.5%,ChatGPT 免费默认 |
| 写代码 | GPT-5.5 Instant | Grok 4.3 ProofBench 仅 11% |
| API 调用,预算紧 | Grok 4.3 | 价格是 GPT-5.5 的 1/12 |
| 法律/金融专业文档 | Grok 4.3 | CaseLaw、CorpFin 双料 #1 |
| 生成 Excel/PDF/PPT | Grok 4.3 | GPT-5.5 Instant 不支持 |
| 语音克隆 | Grok 4.3 | 目前唯一提供此功能 |
| 完全可审计的企业场景 | 都不够好 | Memory Sources 不完整,Grok 无审计报告 |
| 在乎品牌安全和合规 | GPT-5.5 Instant | Grok 历史争议未完全澄清 |
最终的评价是:Grok 4.3 证明了专精模型可以在特定领域打败更贵的通用模型。GPT-5.5 Instant 证明了降低幻觉和提升可靠性比追求基准分数更有实际价值。两个方向都对,关键是你站在哪边。
真正的旗舰之争还得等 GPT-5.5 完整版、Grok 4.3 和 Claude Opus 4.7 的三方评测出来。那才是 2026 年夏天的重头戏。




