Artificial Analysis：选 AI 模型前，先看这里

选 AI 模型，以前靠感觉，现在有数据

今年 AI 模型发布的速度已经快到了没人能全部记住的程度。GPT-5.5 还没捂热，Claude Opus 4.7 来了；Gemini 3.5 刚上线，Kim K2.6 又刷了一波榜。各家厂商的 PR 稿都在说自己"最强"，但谁真谁假，光看官网是不够的。

这就是 Artificial Analysis 存在的理由——它把所有主流模型拉到同一个考场，用统一的标准打分，然后告诉你谁在什么方面真正能打。

Artificial Analysis 跟常见的排行榜最大的区别是：他们真的动手测。

很多榜单的数据来自厂商自报或者众包投票，偏不偏见不好说，但至少不统一。AA 自己做了一套完整的测试管线，从推理、代码、数学到多轮对话，每一项都是自己跑出来的结果。他们有一个叫 Intelligence Index 的综合分数，融合了 10 项不同的评测，比单一维度靠谱得多。

如果你关心编码能力，还有个专门的 Coding Agent Index，把 SWE-Bench-Pro-Hard、Terminal-Bench 这类更贴近实际开发的测试也拉进来了。

除了 IQ，AA 另一个让人喜欢的地方是价格和速度的对比方式。

每个模型都列明了输入/输出价格、缓存折扣价格、输出速度（tokens/s）和首字延迟。对于做 API 选型的人来说，这比翻各厂商的定价页效率高太多了——DeepSeek V4 比 GPT-5.5 便宜多少？Kimi 的速度在同价位里排第几？一个页面全解决。

AA 的数据主要还是海外模型为主。GLM-5.1、Qwen 系列、MiniMax 这些国内模型的信息就不如海外全。而且 benchmark 分数和实际体验之间总有差距——一个模型在 HumanEval 上拿了高分，不代表它在你具体的业务场景里就好用。

所以如果你在认真做模型调研，我的建议是把 AA 和我们自己维护的 AI 模型排行榜结合起来看。我们把实际可用性、中文社区反馈和性价比也考虑进去了，日常参考更顺手。

总结：Artificial Analysis 是目前最透明的 AI 模型评测平台之一。选模型之前去翻一翻，比信厂商 PR 稿靠谱。