为什么要本地跑大模型
本地跑大模型有三个好处:数据不出本机(隐私安全)、不需要网络(离线可用)、长期使用不花钱(没有 API 费用)。
代价是需要买硬件,而且推理速度通常比云端慢。
先搞清楚:模型大小和显存的关系
大模型的参数量直接决定了需要多少显存(VRAM)来运行。一个粗略的计算公式:
FP16 精度:显存(GB) ≈ 参数量(B) × 2 INT4 量化:显存(GB) ≈ 参数量(B) × 0.5
| 模型规模 | FP16 需要 | INT4 量化后 | 能跑什么模型 |
|---|---|---|---|
| 7B | 14 GB | 3.5 GB | Phi-4, Qwen3.5-7B, Mistral-7B |
| 14B | 28 GB | 7 GB | Qwen3.5-14B, DeepSeek-V4-Lite |
| 32B | 64 GB | 16 GB | Qwen3.5-32B, Codestral |
| 70B | 140 GB | 35 GB | Llama 4 Scout, Qwen3.5-72B |
| 400B+ | 800 GB+ | 200 GB+ | 完整旗舰模型,需要服务器级 |
量化会损失一点质量,但实际使用中 INT4 量化的损失通常可以接受。大部分本地用户跑的都是量化版本。
硬件方案推荐
方案一:零成本入门(已有电脑)
如果你有一台 2020 年以后的电脑,大概率能跑 7B 模型。
最低配置:
- CPU:任意 4 核以上
- 内存:16 GB
- 显卡:不需要(纯 CPU 推理)
- 硬盘:10 GB 可用空间
纯 CPU 跑 7B 模型,速度大约 5-10 tokens/秒,聊天够用,但明显感觉"在等"。
方案二:入门级独显(¥3,000-5,000)
推荐配置:
- 显卡:RTX 4060 8GB 或 RTX 3060 12GB
- 内存:16-32 GB
- 硬盘:512 GB SSD
RTX 3060 12GB 是性价比之选,12GB 显存可以跑 INT4 量化的 14B 模型。速度约 20-30 tokens/秒,体验明显好于纯 CPU。
方案三:主流配置(¥8,000-15,000)
推荐配置:
- 显卡:RTX 4070 Ti Super 16GB 或 RTX 4080 16GB
- 内存:32-64 GB
- 硬盘:1 TB SSD
16GB 显存可以流畅跑 14B 模型,部分 32B 量化模型也能跑。速度 40-60 tokens/秒。
方案四:高端配置(¥20,000-50,000)
推荐配置:
- 显卡:RTX 4090 24GB 或双卡 RTX 4080
- 内存:64-128 GB
- 硬盘:2 TB SSD
24GB 显存可以跑 32B 量化模型。双卡方案可以用张量并行跑更大的模型。
方案五:Apple Silicon(¥15,000-40,000)
Mac 的统一内存架构对跑大模型特别友好,因为 GPU 可以直接访问全部内存。
| 芯片 | 内存 | 能跑的模型 | 价格参考 |
|---|---|---|---|
| M4 | 16-24 GB | 7B-14B | ¥12,000-15,000 |
| M4 Pro | 24-48 GB | 14B-32B | ¥15,000-22,000 |
| M4 Max | 64-128 GB | 32B-70B | ¥25,000-40,000 |
| M4 Ultra | 192 GB | 70B+ | ¥55,000+ |
M4 Pro 48GB 跑 32B 模型的速度约 15-25 tokens/秒,比同价位 NVIDIA 方案慢,但能跑更大的模型。
推理工具对比
| 工具 | 特点 | 适合 |
|---|---|---|
| Ollama | 一条命令安装,命令行操作,支持所有主流模型 | 新手入门、开发者 |
| LM Studio | 图形界面,拖拽安装模型,内置聊天 | 不想用命令行的用户 |
| llama.cpp | 最底层的推理引擎,性能最强,可定制性最高 | 高级用户、性能优化 |
| vLLM | 服务端推理引擎,支持并发请求、API 服务 | 搭建私有 API 服务 |
大部分人用 Ollama 就够了。安装简单,模型库丰富,API 兼容 OpenAI 格式。
实际体验参考
| 模型 | 工具 | 硬件 | 速度 |
|---|---|---|---|
| Qwen3.5-7B-Q4 | Ollama | RTX 3060 12G | ~30 tok/s |
| DeepSeek-V4-Lite-14B-Q4 | Ollama | RTX 4070 Ti 16G | ~25 tok/s |
| Qwen3.5-32B-Q4 | Ollama | RTX 4090 24G | ~15 tok/s |
| Llama4-Scout-Q4 | Ollama | M4 Max 64G | ~12 tok/s |
速度数据仅供参考,实际取决于量化方式、prompt 长度、系统负载等因素。
值不值得本地跑?
值得的情况:
- 对数据隐私有硬性要求(企业内部、医疗、法律)
- 长期大量使用,API 费用算下来比买硬件贵
- 在网络不稳定的环境下工作
不值得的情况:
- 偶尔用一下,API 费用很低
- 需要最新最强的模型质量(本地模型质量通常不如云端)
- 没时间折腾配置和调试
对于大多数人,直接用 DeepSeek V4 Flash 的 API(¥0.95/M)可能比本地跑更划算。
