选 AI 模型,以前靠感觉,现在有数据

今年 AI 模型发布的速度已经快到了没人能全部记住的程度。GPT-5.5 还没捂热,Claude Opus 4.7 来了;Gemini 3.5 刚上线,Kim K2.6 又刷了一波榜。各家厂商的 PR 稿都在说自己"最强",但谁真谁假,光看官网是不够的。

这就是 Artificial Analysis 存在的理由——它把所有主流模型拉到同一个考场,用统一的标准打分,然后告诉你谁在什么方面真正能打。

不是又一个排行榜

Artificial Analysis 跟常见的排行榜最大的区别是:他们真的动手测。

很多榜单的数据来自厂商自报或者众包投票,偏不偏见不好说,但至少不统一。AA 自己做了一套完整的测试管线,从推理、代码、数学到多轮对话,每一项都是自己跑出来的结果。他们有一个叫 Intelligence Index 的综合分数,融合了 10 项不同的评测,比单一维度靠谱得多。

如果你关心编码能力,还有个专门的 Coding Agent Index,把 SWE-Bench-Pro-Hard、Terminal-Bench 这类更贴近实际开发的测试也拉进来了。

定价和速度,摆在明面上

除了 IQ,AA 另一个让人喜欢的地方是价格和速度的对比方式。

每个模型都列明了输入/输出价格、缓存折扣价格、输出速度(tokens/s)和首字延迟。对于做 API 选型的人来说,这比翻各厂商的定价页效率高太多了——DeepSeek V4 比 GPT-5.5 便宜多少?Kimi 的速度在同价位里排第几?一个页面全解决。

也有局限

AA 的数据主要还是海外模型为主。GLM-5.1、Qwen 系列、MiniMax 这些国内模型的信息就不如海外全。而且 benchmark 分数和实际体验之间总有差距——一个模型在 HumanEval 上拿了高分,不代表它在你具体的业务场景里就好用。

所以如果你在认真做模型调研,我的建议是把 AA 和我们自己维护的 AI 模型排行榜结合起来看。我们把实际可用性、中文社区反馈和性价比也考虑进去了,日常参考更顺手。

总结:Artificial Analysis 是目前最透明的 AI 模型评测平台之一。选模型之前去翻一翻,比信厂商 PR 稿靠谱。