为什么要本地跑大模型

本地跑大模型有三个好处:数据不出本机(隐私安全)、不需要网络(离线可用)、长期使用不花钱(没有 API 费用)。

代价是需要买硬件,而且推理速度通常比云端慢。

先搞清楚:模型大小和显存的关系

大模型的参数量直接决定了需要多少显存(VRAM)来运行。一个粗略的计算公式:

FP16 精度:显存(GB) ≈ 参数量(B) × 2 INT4 量化:显存(GB) ≈ 参数量(B) × 0.5

模型规模FP16 需要INT4 量化后能跑什么模型
7B14 GB3.5 GBPhi-4, Qwen3.5-7B, Mistral-7B
14B28 GB7 GBQwen3.5-14B, DeepSeek-V4-Lite
32B64 GB16 GBQwen3.5-32B, Codestral
70B140 GB35 GBLlama 4 Scout, Qwen3.5-72B
400B+800 GB+200 GB+完整旗舰模型,需要服务器级

量化会损失一点质量,但实际使用中 INT4 量化的损失通常可以接受。大部分本地用户跑的都是量化版本。

硬件方案推荐

方案一:零成本入门(已有电脑)

如果你有一台 2020 年以后的电脑,大概率能跑 7B 模型。

最低配置:

纯 CPU 跑 7B 模型,速度大约 5-10 tokens/秒,聊天够用,但明显感觉"在等"。

方案二:入门级独显(¥3,000-5,000)

推荐配置:

RTX 3060 12GB 是性价比之选,12GB 显存可以跑 INT4 量化的 14B 模型。速度约 20-30 tokens/秒,体验明显好于纯 CPU。

方案三:主流配置(¥8,000-15,000)

推荐配置:

16GB 显存可以流畅跑 14B 模型,部分 32B 量化模型也能跑。速度 40-60 tokens/秒。

方案四:高端配置(¥20,000-50,000)

推荐配置:

24GB 显存可以跑 32B 量化模型。双卡方案可以用张量并行跑更大的模型。

方案五:Apple Silicon(¥15,000-40,000)

Mac 的统一内存架构对跑大模型特别友好,因为 GPU 可以直接访问全部内存。

芯片内存能跑的模型价格参考
M416-24 GB7B-14B¥12,000-15,000
M4 Pro24-48 GB14B-32B¥15,000-22,000
M4 Max64-128 GB32B-70B¥25,000-40,000
M4 Ultra192 GB70B+¥55,000+

M4 Pro 48GB 跑 32B 模型的速度约 15-25 tokens/秒,比同价位 NVIDIA 方案慢,但能跑更大的模型。

推理工具对比

工具特点适合
Ollama一条命令安装,命令行操作,支持所有主流模型新手入门、开发者
LM Studio图形界面,拖拽安装模型,内置聊天不想用命令行的用户
llama.cpp最底层的推理引擎,性能最强,可定制性最高高级用户、性能优化
vLLM服务端推理引擎,支持并发请求、API 服务搭建私有 API 服务

大部分人用 Ollama 就够了。安装简单,模型库丰富,API 兼容 OpenAI 格式。

实际体验参考

模型工具硬件速度
Qwen3.5-7B-Q4OllamaRTX 3060 12G~30 tok/s
DeepSeek-V4-Lite-14B-Q4OllamaRTX 4070 Ti 16G~25 tok/s
Qwen3.5-32B-Q4OllamaRTX 4090 24G~15 tok/s
Llama4-Scout-Q4OllamaM4 Max 64G~12 tok/s

速度数据仅供参考,实际取决于量化方式、prompt 长度、系统负载等因素。

值不值得本地跑?

值得的情况:

不值得的情况:

对于大多数人,直接用 DeepSeek V4 Flash 的 API(¥0.95/M)可能比本地跑更划算。