2026 年大模型 API 定价一览
大模型 API 价格战从 2024 年打到现在,价格已经降了两个数量级。整理了当前主流模型的最新定价,方便开发者做选型参考。
价格单位统一为 ¥/百万 tokens(美元价格按 $1=¥6.80 换算)。
旗舰模型定价
这一档是各家最强的模型,适合需要高质量推理、复杂代码生成的场景。
| 模型 | 厂商 | 输入 (¥/M) | 输出 (¥/M) | 上下文 |
|---|---|---|---|---|
| GPT-5.5 | OpenAI | ¥34.00 | ¥204.00 | 1050K |
| Claude Opus 4.7 | Anthropic | ¥34.00 | ¥170.00 | 1000K |
| Gemini 3.5 Pro | ¥10.20 | ¥61.20 | 1000K | |
| Qwen3.7 Max | 阿里 | ¥17.00 | ¥51.00 | 1000K |
| Claude Sonnet 4.6 | Anthropic | ¥20.40 | ¥102.00 | 1000K |
| GPT-5.4 | OpenAI | ¥17.00 | ¥102.00 | 1050K |
旗舰模型价格差距很大。GPT-5.5 输出要 ¥204/M,而 Gemini 3.5 Pro 只要 ¥61.20/M,差了 3 倍多。如果任务对推理质量要求不是极端苛刻,Gemini 3.5 Pro 是旗舰档的性价比之选。
轻量/快速模型定价
适合对话、简单问答、代码补全等对速度要求高、推理复杂度低的场景。
| 模型 | 厂商 | 输入 (¥/M) | 输出 (¥/M) | 上下文 |
|---|---|---|---|---|
| GPT-5.5 Instant | OpenAI | ¥5.10 | ¥20.40 | 922K |
| Kimi K2.6 | Moonshot | ¥4.96 | ¥23.73 | 262K |
| Gemini 3.5 Flash | ¥10.20 | ¥61.20 | 1049K | |
| Qwen3.6 Plus | 阿里 | ¥2.21 | ¥13.26 | 1000K |
| MiniMax-M2.7 | MiniMax | ¥1.90 | ¥8.16 | 205K |
GPT-5.5 Instant 是 OpenAI 的速度型产品,价格只有 GPT-5.5 的 1/4。Kimi K2.6 在编程和 Agent 场景表现不错,价格也在同一档位。
超低价模型定价
这档是各家打价格战的主战场。适合批量处理、智能体循环调用、数据标注等高频场景。
| 模型 | 厂商 | 输入 (¥/M) | 输出 (¥/M) | 上下文 |
|---|---|---|---|---|
| MiMo-V2.5 Pro | 小米 | ¥3.00 | ¥6.00 | 1000K |
| DeepSeek V4 Pro | DeepSeek | ¥2.96 | ¥5.92 | 1049K |
| GLM-5.1 | 智谱 | ¥2.72 | ¥8.16 | 200K |
| MiMo-V2.5 | 小米 | ¥1.02 | ¥1.97 | 1000K |
| DeepSeek V4 Flash | DeepSeek | ¥0.95 | ¥1.90 | 1000K |
| Gemini 3 Flash | ¥1.02 | ¥4.08 | 1000K | |
| 混元 Hy3 Preview | 腾讯 | ¥0.41 | ¥1.22 | 256K |
| Step 3.5 Flash | 阶跃星辰 | ¥0.20 | ¥0.61 | 256K |
DeepSeek V4 Pro 和 MiMo-V2.5 Pro 价格几乎一样,都是 ¥3/M 输入、¥6/M 输出左右,但上下文窗口都支持 1M。这两个是目前百万上下文模型里最便宜的。
如果不需要超长上下文,混元 Hy3 Preview 和 Step 3.5 Flash 更便宜,输出只要 ¥1/M 左右。
开源/免费模型
通过 OpenRouter、Together AI 等平台调用开源模型,价格通常比闭源模型低很多。
| 模型 | 参数量 | 输入 (¥/M) | 输出 (¥/M) | 上下文 |
|---|---|---|---|---|
| Llama 4 Scout | — | ¥0.75 | ¥2.24 | 10000K |
| Llama 4 Maverick | — | ¥1.16 | ¥3.40 | 1000K |
| Mistral Large 3 | — | ¥2.04 | ¥6.12 | 256K |
| Phi-4 | 14B | ¥0.54 | ¥1.63 | 16K |
Llama 4 Scout 支持 10M 上下文,是目前上下文最长的开源模型。本地部署的话完全免费,只需要硬件成本。
按场景选模型
日常对话、简单问答 → GPT-5.5 Instant(¥5.10/¥20.40)或 DeepSeek V4 Flash(¥0.95/¥1.90)。性价比高,响应快。
复杂推理、学术分析 → Claude Opus 4.7(¥34/¥170)或 GPT-5.5(¥34/¥204)。贵但质量最好。
编程、代码生成 → DeepSeek V4 Pro(¥2.96/¥5.92)或 MiMo-V2.5 Pro(¥3/¥6)。编程能力接近旗舰水平,价格只有 1/10。
智能体、高频调用 → DeepSeek V4 Flash(¥0.95/¥1.90)或 Step 3.5 Flash(¥0.20/¥0.61)。价格低到可以忽略不计。
长文档处理(100K+ tokens) → DeepSeek V4 Pro / MiMo-V2.5 Pro(都支持 1M 上下文,价格 ¥3/¥6 左右)。
本地部署、数据隐私 → Ollama + Llama 4 Scout 或 Qwen3.5 开源版。硬件成本一次性投入,后续免费。
几个值得注意的趋势
国产模型的价格优势非常明显。同样输出质量的模型,国内厂商的价格通常是 OpenAI/Anthropic 的 1/5 到 1/10。这主要是因为国内推理基础设施成本更低,加上价格战打得更凶。
缓存命中价格是另一个值得关注的点。MiMo-V2.5 Pro 缓存命中只要 ¥0.025/M,DeepSeek 也有类似的缓存折扣。如果应用有大量重复查询,善用缓存可以把成本再降一个量级。
百万上下文已经成了标配。2024 年还只有少数模型支持 128K 以上,到 2026 年主流模型基本都支持 1M 甚至更长。上下文长度不再是选型的瓶颈。




