2026 年 5 月的第一周属于 AI 模型发布。OpenAI 把 GPT-5.5 Instant 设成了 ChatGPT 的默认模型,xAI 则甩出了 Grok 4.3——一款定价低到让竞品难受的旗舰模型。两边都在喊"我更聪明、我更便宜",但实际用起来谁更强?

坦白说,这俩不是一个重量级的对手。GPT-5.5 Instant 是 ChatGPT 免费版背后的引擎,Grok 4.3 是 xAI 拿来打 API 市场的旗舰。真要公平对决,该把完整版 GPT-5.5 拉出来。但大部分用户并不关心这个——他们就想知道:日常用 ChatGPT 免费版好,还是花点钱上 Grok 更划算?

先快速看一眼两者的基本参数。

GPT-5.5 InstantGrok 4.3
定位ChatGPT 免费默认模型xAI 旗舰模型,API 主力
发布时间2026.5.52026.5.1
前代替代 GPT-5.3 Instant替代 Grok 4.2
知识截止未公布2025.12
上下文窗口未公布(完整版 GPT-5.5 为 200K)100 万 token
推理方式按需切换内置常开(always-on reasoning)
多模态输入文本 + 图片文本 + 图片

性能:通用 vs 专精

OpenAI 给 GPT-5.5 Instant 定的目标是"更可靠"。内部评测显示,幻觉比前代 GPT-5.3 Instant 减少了 52.5%。医疗、法律、金融这些答错一句就出事的领域,提升尤为明显。困难对话里的不准确率也降了 37.3%。图片理解、STEM 问答、判断什么时候该调用知识库而不是联网搜索——这些方面都比上一代强。

Arena 排名的历史数据也能说明问题。前代 GPT-5.3-Chat 只在总榜排第 44 名,而 OpenAI 目前最强的聊天模型 GPT-5.2-Chat 排在第 12。GPT-5.5 Instant 应该能拉近这个差距,但具体跑分还没出来。

Grok 4.3 走的是另一条路。它最大的突破在垂直领域——CaseLaw v2 法律推理排名第一,准确率 79.3%。公司金融基准 CorpFin 也是第一。比前代 Grok 4.2 的法律推理足足跳了 25 分。这在专业场景里不是小数字。

Agent 任务上,Grok 4.3 的 GDPval-AA benchmark Elo 达到 1500,压过了 Gemini 3.1 Pro 和 GPT-5.4 mini。但一换到通用编程,短板就露出来了。ProofBench 只拿了 11%,Vending-Bench 2 这种需要持续自主行动的测试里,评测者用了"嗜睡症"这个词——模型在模拟环境里连续几天不动弹,该执行的操作不去执行。

Abacus AI 的 CEO Bindu Reddy 的评价很精炼:"和 Sonnet 4.6 一样聪明,便宜 5 倍,还更快。"这句话成立的前提是,你用它擅长的场景。

性能基准得分一拉出来,方向就很清楚。

基准GPT-5.5 InstantGrok 4.3
幻觉率降幅(vs 前代)−52.5%未公布
困难对话不准确率降幅−37.3%未公布
CaseLaw v2(法律推理)未公布#1(79.3%)
CorpFin(公司金融)未公布#1
GDPval-AA(Agent 任务)未公布Elo 1500
ProofBench(数学证明)未公布11%(弱)
Vending-Bench 2(持续行动)未公布"嗜睡症"级表现
Arena 文本总榜(前代参考)前代第 44 名,预期大幅提升未公布

价格:不在一个数量级

API 定价是 Grok 4.3 最锋利的武器。输入每百万 token 收 1.25 美元,输出 2.50 美元。GPT-5.5 完整版呢?输入 5 美元,输出 30 美元。差了 4 到 12 倍。

放在整个市场里看,Grok 4.3 的定价紧挨着中国的开源模型,离美国的商业旗舰很远。

从 VentureBeat 整理的价格表里摘几个关键对比(单位:美元/百万 token):

模型输入输出价差 vs Grok 4.3
Grok 4.3$1.25$2.50
DeepSeek V4 Pro$1.74$3.48贵 40%
Gemini 3 Flash$0.50$3.00输出贵 20%
Gemini 3 Pro$2.00$12.004.8 倍
GPT-5.4$2.50$15.006 倍
Claude Opus 4.7$5.00$25.0010 倍
GPT-5.5(完整版)$5.00$30.0012 倍

xAI 还加了几个有意思的计费项。推理 token——模型"思考"过程产生的 token——和普通输出一个价。Prompt 缓存便宜到 $0.20 每百万 token。工具调用按次收费,Web Search 每千次 5 美元。还有一个可能是行业首创的"安全拦截费":被安全过滤器挡掉的请求,每次收 0.05 美元。

GPT-5.5 Instant 这边没有单独定价,因为它是 ChatGPT 免费版的默认模型。OpenAI 也没额外收推理费。

特色功能:记忆溯源 vs 全栈 Agent

GPT-5.5 Instant 带来一个叫 Memory Sources 的功能。ChatGPT 回答你的时候,可以点开看它参考了哪些历史对话、哪些上传文件。你能删掉过时信息,也能纠正错误记忆。发出去的对话链接不会暴露这些源。

但 OpenAI 自己承认这个功能不完整——"可能不会显示所有影响回答的因素"。HiddenLayer 的首席信任官 Malcolm Harkins 说得很客观:方向对,但光有这个不够,真正的价值取决于它和企业的安全、治理、权限控制、审计系统怎么打通。

Grok 4.3 的打法完全不同。它从底层就被设计成能自主行动的 Agent。100 万 token 的上下文窗口,内置推理链常开,每个查询都先思考再回答。早期用户晒出来的案例挺唬人:6 分 22 秒生成了一个带多页仪表盘和自动计算公式的 Excel 战斗分析器;能输出带品牌排版的 12 页 PDF;能设计 9 页的 PPT,结构是暗色调标题配浅色内容。

工具生态也配齐了:联网搜索、X 平台搜索、Python 沙箱执行、RAG 文件检索。这些工具模型可以自主决定要不要调用。

语音是另一块 Grok 的差异化武器。Custom Voices 能拿 120 秒的参考音频克隆出一个声音,克隆出来之后可以用在 TTS 和 Voice Agent API 上。作者自己试过,读几段不相关的对话稿,出来的声音"诡异地和本尊一模一样"。Voice Agent 每小时 3 美元,卡在 ElevenLabs 和 OpenAI TTS 之间的价格带上。TTS 是每百万字符 4.20 美元,STT 实时转写每小时 0.20 美元。

注意这个语音克隆目前只在美国可用,伊利诺伊州除外——州级生物识别法规的问题。

功能层面的差异概括一下:

功能GPT-5.5 InstantGrok 4.3
记忆溯源可查看引用来源,可删除/纠正
内置推理链按需切换常开,每次查询都思考
网页搜索支持支持(含 X 平台搜索)
代码执行支持Python 沙箱
文件检索(RAG)支持支持
Excel 生成不支持支持(含多页仪表盘、公式)
PDF 生成不支持支持(含品牌排版)
PPT 生成不支持支持
语音克隆120 秒样本,商用授权
Voice Agent API$3/小时
提示缓存支持$0.20/百万 token
审计完整性部分(不展示全部引用)未公布

风险和争议

Grok 系列的品牌包袱不轻。此前的 Grok 版本出过不少事故:在 X 平台上自称"MechaHitler"并输出反犹内容、生成性化深度伪造图像、引用种族冲突、被指输出内容呼应马斯克本人的政治立场。甚至一度被发现在 X 平台的实现中,回答之前先去查马斯克的账号。Grok 4.3 在多大程度上修掉了这些问题,目前还没有独立的完整审计。

OpenAI 这边更多是透明度问题。Memory Sources 只展示部分上下文来源,模型说它参考了 A,实际可能参考了 B。如果企业把 ChatGPT 用在需要完全可审计的场景,这种"竞争性上下文日志"会制造困扰。

结论:选哪个?

搞清楚你用它干什么。场景决定答案。

你的需求选哪个理由
日常对话,少出错GPT-5.5 Instant幻觉率 −52.5%,ChatGPT 免费默认
写代码GPT-5.5 InstantGrok 4.3 ProofBench 仅 11%
API 调用,预算紧Grok 4.3价格是 GPT-5.5 的 1/12
法律/金融专业文档Grok 4.3CaseLaw、CorpFin 双料 #1
生成 Excel/PDF/PPTGrok 4.3GPT-5.5 Instant 不支持
语音克隆Grok 4.3目前唯一提供此功能
完全可审计的企业场景都不够好Memory Sources 不完整,Grok 无审计报告
在乎品牌安全和合规GPT-5.5 InstantGrok 历史争议未完全澄清

最终的评价是:Grok 4.3 证明了专精模型可以在特定领域打败更贵的通用模型。GPT-5.5 Instant 证明了降低幻觉和提升可靠性比追求基准分数更有实际价值。两个方向都对,关键是你站在哪边。

真正的旗舰之争还得等 GPT-5.5 完整版、Grok 4.3 和 Claude Opus 4.7 的三方评测出来。那才是 2026 年夏天的重头戏。