什么是 Ollama?
Ollama 是一个开源的本地大模型运行框架,它的核心设计理念非常简单:让任何人都能在个人电脑上运行 AI 模型。
在此之前,想要在本地跑 Llama、Mistral 这些大模型需要复杂的依赖配置和 CUDA 环境设置。而 Ollama 把这些都抽象成了几个简单的命令:
# 安装后只需这行代码就能运行一个 AI
ollama run llama3.1
就这么简单!
为什么选择 Ollama?
🎯 核心优势
| 特性 | Ollama | 传统方案 (PyTorch+Transformer) |
|---|---|---|
| 安装难度 | ⭐️一键安装 | ⭐️⭐️⭐️⭐️⭐️需配置复杂环境 |
| 资源占用 | 自动优化 | 手动调优 |
| 模型支持 | 数十种预训练模型 | 需单独配置每个模型 |
| 更新速度 | 每周新模型上线 | 手动下载权重文件 |
| API 支持 | 内置 RESTful API | 需额外搭建服务 |
💡 适用场景
- 🔐 隐私优先:数据不出本地,不上传云端
- 💰 成本节约:无需支付 API 调用费用
- 🏃 低延迟:响应速度快,无需网络传输
- 🧪 开发者友好:便于快速原型验证和实验
系统要求
最低配置
- CPU: 64 位处理器 (x86_64 或 ARM64)
- 内存: 8GB RAM
- 存储: 至少 10GB 可用空间(每增加一个模型约 +5~20GB)
推荐配置
- CPU: Apple M1/M2/M3 芯片 或 Intel Core i7/Ryzen 7 及以上
- 内存: 16GB RAM 或以上(运行大模型建议 32GB+)
- GPU: NVIDIA RTX 3060 12GB 或更高(可选,能加速推理)
支持的操作系统版本
✅ macOS: 12.0 (Monterey) 及以上
✅ Linux: Ubuntu 20.04+, Debian 11+, Fedora 36+
✅ Windows: Windows 10/11 (64 位),需要 WSL2 或直接安装包
macOS 安装步骤
方法一:官方安装器(推荐新手)
这是最简单的方式,适合大多数 Mac 用户。
Step 1:下载安装包
打开终端,运行以下命令:
# 访问官网下载页面
open https://ollama.com/download
或者直接在浏览器访问 https://ollama.com/download
你会看到两个选项:
- Apple Silicon (M1/M2/M3): 如果你的 Mac 是 2020 年后购买的,选这个
- Intel Mac: 较旧的 Mac 机型选这个
点击下载按钮,会获取到一个 .pkg 安装包。
Step 2:运行安装程序
双击下载的 ollama-darwin-x86_64.pkg 或 ollama-darwin-arm64.pkg
安装向导会提示:
欢迎使用 Ollama 安装程序
--------------------------------
将创建启动代理和默认安装路径为 /Applications/Ollama.app
是否继续?[Y/n]
输入 Y 然后按回车确认。
Step 3:验证安装
打开终端,运行:
ollama --version
如果看到类似 ollama version 0.5.2 的输出,说明安装成功!
方法二:Homebrew 安装(适合开发者)
如果你习惯用 Homebrew 管理应用:
# 先安装 Homebrew(如果没有)
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
# 安装 Ollama
brew install ollama
Linux 安装步骤
方法一:官方脚本安装(通用)
适用于几乎所有 Linux 发行版。
Step 1:运行安装脚本
# 以 root 权限运行安装脚本
curl -fsSL https://ollama.com/install.sh | sh
脚本会自动检测你的系统类型,选择合适的安装方式。
注意:如果使用非 root 用户,请先提权:
sudo curl -fsSL https://ollama.com/install.sh | sh
Step 2:启动 Ollama 服务
脚本安装完成后,Ollama 会通过 systemd 自动启动。你可以检查状态:
# 查看服务状态
systemctl status ollama
# 如果未运行,手动启动
sudo systemctl start ollama
# 设置为开机自启
sudo systemctl enable ollama
输出示例:
● ollama.service - Ollama Service
Loaded: loaded (/etc/systemd/system/ollama.service; enabled)
Active: active (running) since Mon 2026-04-15 10:30:00 CST
Step 3:验证安装
ollama --version
方法二:Docker 容器化安装
如果你有 Docker 环境,也可以用容器运行:
# 拉取镜像
docker pull ollama/ollama
# 运行容器
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
Windows 安装步骤
方法一:直接安装包(Windows 10/11)
Step 1:下载安装程序
在浏览器中访问 https://ollama.com/download,点击 Windows 版本的下载按钮。
下载完成后会得到 ollama-setup.exe 文件。
Step 2:运行安装向导
双击 ollama-setup.exe,安装向导会依次询问:
- 安装位置: 默认为
C:\Program Files\Ollama,可直接下一步 - 创建桌面快捷方式: 建议勾选
- 关联模型文件夹: 建议保持默认设置
完成后,Ollama 会在后台自动启动。
Step 3:从命令行使用
打开 PowerShell 或 CMD,运行:
ollama --version
方法二:WSL2 安装(Linux 用户在 Windows 上)
如果你想用 Linux 环境:
# 1. 确认已安装 WSL2
wsl --install
# 2. 进入 WSL 子系统(Ubuntu)
wsl
# 3. 按照上述 Linux 安装步骤操作
curl -fsSL https://ollama.com/install.sh | sh
首次运行与模型下载
安装完成后,让我们第一次运行一个 AI 模型吧!
Step 1:启动 Ollama
如果是图形界面系统(macOS/Windows),Ollama 已经作为后台服务运行了。你可以通过任务管理器或活动监视器确认进程存在。
如果是 Linux 服务器,确保服务正在运行:
systemctl status ollama
Step 2:运行第一个模型
在终端中输入:
ollama run llama3.1
首次运行时,Ollama 会自动:
- 检查本地是否有
llama3.1模型 - 如果没有,自动从 Hugging Face 下载(约 4.7GB)
- 加载到内存并开始对话
耐心等待下载完成,网速快的话大约需要 3-5 分钟。
Step 3:体验对话
模型加载完毕后,你会看到这样的提示:
>>>
这时可以开始输入问题了!比如:
你好,请介绍一下你自己
LLama 3.1 会以自然语言回应你。试着问一些复杂的问题:
请用 Python 写一个快速排序算法,并解释每一步
按 Ctrl+C 退出对话,或输入 /bye 结束会话。
Step 4:列出已安装的模型
ollama list
输出示例:
NAME ID SIZE MODIFIED
llama3.1 8a7b9e... 4.7 GB 2 小时前
Step 5:删除不需要的模型
ollama rm llama3.1
常用模型推荐
Ollama 支持几十种开源模型,以下是精选的几类:
🧠 全能型大模型
| 模型名称 | 大小 | 特点 | 适用场景 |
|---|---|---|---|
| llama3.1 | 4.7GB | Meta 最新,综合性能最强 | 日常对话、写作、编程 |
| llama3.1:70b | 40GB | 更大版本,智商更高但更吃资源 | 需要高智能的任务 |
| mistral | 4.1GB | 欧洲开源强模,代码能力强 | 编程辅助 |
| gemma2:9b | 5.6GB | Google 出品,多语言能力优秀 | 跨语言任务 |
💻 编程专用
| 模型名称 | 大小 | 特点 |
|---|---|---|
| codellama | 3.8GB | 专注代码生成和调试 |
| deepseek-coder | 2.9GB | 中文代码注释理解好 |
| starcoder2 | 3.8GB | 支持多种编程语言 |
📱 小型高效
| 模型名称 | 大小 | 特点 |
|---|---|---|
| phi3 | 2.3GB | Microsoft 轻量模型,速度超快 |
| tinyllama | 0.4GB | 极小体积,适合测试 |
| qwen2:0.5b | 0.4GB | 阿里出品,最小却有用 |
🚀 快速上手组合推荐
入门用户(普通笔记本):
# 最平衡的选择
ollama run llama3.1
# 或者更快更小
ollama run phi3
开发者:
# 编程专用
ollama run codellama
# 中英双语
ollama run qwen2:7b
专业用户(高配 PC):
# 最大能力
ollama run llama3.1:70b
API 接口使用
Ollama 内置了一个简单的 RESTful API,方便你集成到自己的程序中。
启动 API 服务
默认情况下,只要 Ollama 在运行,API 就自动可用。API 监听在 http://localhost:11434
基本 API 端点
1. 生成回答(聊天)
HTTP 请求:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1",
"prompt": "请介绍量子计算的基本原理",
"stream": false
}'
Python 示例:
import requests
response = requests.post('http://localhost:11434/api/chat', json={
'model': 'llama3.1',
'messages': [{'role': 'user', 'content': '你好'}]
})
print(response.json()['message']['content'])
2. 列出可用模型
curl http://localhost:11434/api/tags
3. 复制模型
curl http://localhost:11434/api/copy -d '{
"source": "llama3.1",
"destination": "my-llama"
}'
使用 Python 客户端
安装依赖:
pip install ollama
使用示例:
import ollama
# 简单聊天
response = ollama.chat(model='llama3.1', messages=[
{
'role': 'user',
'content': '用 Python 写个斐波那契数列',
},
])
print(response['message']['content'])
高级配置
环境变量设置
# 自定义模型存储路径
export OLLAMA_MODELS="/data/ollama/models"
# 指定 GPU 设备(CUDA)
export CUDA_VISIBLE_DEVICES=0,1
# 调整批处理大小(影响性能和内存占用)
export OLLAMA_NUM_PARALLEL=4
# 设置日志级别
export OLLAMA_DEBUG=true
Modelfile 自定义模型
你可以基于现有模型修改参数:
创建 Modelfile
FROM llama3.1
# 设置温度(创造性)
PARAMETER temperature 0.7
# 设置上下文长度
PARAMETER num_ctx 4096
# 系统指令
SYSTEM "你是一个专业的编程助手,总是给出简洁准确的代码解答。"
构建自定义模型
ollama create my-coder -f Modelfile
ollama run my-coder
Docker 持久化配置
# 挂载外部存储
docker run -d \
-v /your/host/path:/root/.ollama \
-p 11434:11434 \
--name ollama \
ollama/ollama
故障排查
问题 1:安装后找不到命令
症状:command not found: ollama
解决方案:
-
检查 PATH 环境变量:
echo $PATH | grep ollama -
重新安装:
# macOS brew reinstall ollama # Linux sudo systemctl restart ollama -
重启终端:有时需要完全关闭再打开终端窗口
问题 2:下载模型超时或失败
症状:下载过程卡住或报错
解决方案:
-
检查网络连接:确保可以访问 GitHub 和 HuggingFace
ping huggingface.co -
使用国内镜像源(仅限中国大陆用户):
export HF_ENDPOINT=https://hf-mirror.com -
断点续传:删除失败的文件重新下载
ollama pull --help # 查看下载进度选项
问题 3:内存不足
症状:out of memory 错误
解决方案:
-
使用小模型:
ollama run phi3 # 比 llama3.1 小很多 -
关闭其他应用:释放更多内存
-
限制并发数:
export OLLAMA_NUM_PARALLEL=1
问题 4:GPU 未启用
症状:模型运行很慢
解决方案:
-
检查 GPU 识别:
nvidia-smi # NVIDIA 用户 system_profiler SPDisplaysDataType # Mac 用户 -
确认驱动正常:确保显卡驱动已正确安装
-
环境变量强制指定:
export ROCM_PATH=/opt/rocm # AMD GPU
问题 5:端口冲突
症状:address already in use
解决方案:
-
找到占用进程:
lsof -i :11434 -
杀掉进程或更改端口:
kill -9 <PID> # 或使用不同端口启动 ollama serve --port 11435
总结
恭喜你完成了 Ollama 的完整安装之旅!现在你已经掌握了:
✅ 三大平台安装方法:macOS、Linux、Windows 任选其一
✅ 模型选择和运行:从 llama3.1 到 phi3,按需选择
✅ API 集成技巧:可以在自己的项目中调用 AI
✅ 问题解决能力:遇到常见错误知道怎么修复
🎉 下一步建议
- 尝试不同模型:对比各种模型的效果差异
- 探索 API 功能:把你的网站/App 接入 AI
- 分享成果:写一篇你的使用体验文章
- 加入社区:关注 Ollama GitHub 获取最新动态




