什么是 Ollama?

Ollama 是一个开源的本地大模型运行框架,它的核心设计理念非常简单:让任何人都能在个人电脑上运行 AI 模型

在此之前,想要在本地跑 Llama、Mistral 这些大模型需要复杂的依赖配置和 CUDA 环境设置。而 Ollama 把这些都抽象成了几个简单的命令:

# 安装后只需这行代码就能运行一个 AI
ollama run llama3.1

就这么简单!

为什么选择 Ollama?

🎯 核心优势

特性Ollama传统方案 (PyTorch+Transformer)
安装难度⭐️一键安装⭐️⭐️⭐️⭐️⭐️需配置复杂环境
资源占用自动优化手动调优
模型支持数十种预训练模型需单独配置每个模型
更新速度每周新模型上线手动下载权重文件
API 支持内置 RESTful API需额外搭建服务

💡 适用场景

  • 🔐 隐私优先:数据不出本地,不上传云端
  • 💰 成本节约:无需支付 API 调用费用
  • 🏃 低延迟:响应速度快,无需网络传输
  • 🧪 开发者友好:便于快速原型验证和实验

系统要求

最低配置

  • CPU: 64 位处理器 (x86_64 或 ARM64)
  • 内存: 8GB RAM
  • 存储: 至少 10GB 可用空间(每增加一个模型约 +5~20GB)

推荐配置

  • CPU: Apple M1/M2/M3 芯片 或 Intel Core i7/Ryzen 7 及以上
  • 内存: 16GB RAM 或以上(运行大模型建议 32GB+)
  • GPU: NVIDIA RTX 3060 12GB 或更高(可选,能加速推理)

支持的操作系统版本

macOS: 12.0 (Monterey) 及以上
Linux: Ubuntu 20.04+, Debian 11+, Fedora 36+
Windows: Windows 10/11 (64 位),需要 WSL2 或直接安装包


macOS 安装步骤

方法一:官方安装器(推荐新手)

这是最简单的方式,适合大多数 Mac 用户。

Step 1:下载安装包

打开终端,运行以下命令:

# 访问官网下载页面
open https://ollama.com/download

或者直接在浏览器访问 https://ollama.com/download

你会看到两个选项:

  • Apple Silicon (M1/M2/M3): 如果你的 Mac 是 2020 年后购买的,选这个
  • Intel Mac: 较旧的 Mac 机型选这个

点击下载按钮,会获取到一个 .pkg 安装包。

Step 2:运行安装程序

双击下载的 ollama-darwin-x86_64.pkgollama-darwin-arm64.pkg

安装向导会提示:

欢迎使用 Ollama 安装程序
--------------------------------
将创建启动代理和默认安装路径为 /Applications/Ollama.app
是否继续?[Y/n]

输入 Y 然后按回车确认。

Step 3:验证安装

打开终端,运行:

ollama --version

如果看到类似 ollama version 0.5.2 的输出,说明安装成功!

方法二:Homebrew 安装(适合开发者)

如果你习惯用 Homebrew 管理应用:

# 先安装 Homebrew(如果没有)
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

# 安装 Ollama
brew install ollama

Linux 安装步骤

方法一:官方脚本安装(通用)

适用于几乎所有 Linux 发行版。

Step 1:运行安装脚本

# 以 root 权限运行安装脚本
curl -fsSL https://ollama.com/install.sh | sh

脚本会自动检测你的系统类型,选择合适的安装方式。

注意:如果使用非 root 用户,请先提权:

sudo curl -fsSL https://ollama.com/install.sh | sh

Step 2:启动 Ollama 服务

脚本安装完成后,Ollama 会通过 systemd 自动启动。你可以检查状态:

# 查看服务状态
systemctl status ollama

# 如果未运行,手动启动
sudo systemctl start ollama

# 设置为开机自启
sudo systemctl enable ollama

输出示例:

● ollama.service - Ollama Service
     Loaded: loaded (/etc/systemd/system/ollama.service; enabled)
     Active: active (running) since Mon 2026-04-15 10:30:00 CST

Step 3:验证安装

ollama --version

方法二:Docker 容器化安装

如果你有 Docker 环境,也可以用容器运行:

# 拉取镜像
docker pull ollama/ollama

# 运行容器
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Windows 安装步骤

方法一:直接安装包(Windows 10/11)

Step 1:下载安装程序

在浏览器中访问 https://ollama.com/download,点击 Windows 版本的下载按钮。

下载完成后会得到 ollama-setup.exe 文件。

Step 2:运行安装向导

双击 ollama-setup.exe,安装向导会依次询问:

  1. 安装位置: 默认为 C:\Program Files\Ollama,可直接下一步
  2. 创建桌面快捷方式: 建议勾选
  3. 关联模型文件夹: 建议保持默认设置

完成后,Ollama 会在后台自动启动。

Step 3:从命令行使用

打开 PowerShell 或 CMD,运行:

ollama --version

方法二:WSL2 安装(Linux 用户在 Windows 上)

如果你想用 Linux 环境:

# 1. 确认已安装 WSL2
wsl --install

# 2. 进入 WSL 子系统(Ubuntu)
wsl

# 3. 按照上述 Linux 安装步骤操作
curl -fsSL https://ollama.com/install.sh | sh

首次运行与模型下载

安装完成后,让我们第一次运行一个 AI 模型吧!

Step 1:启动 Ollama

如果是图形界面系统(macOS/Windows),Ollama 已经作为后台服务运行了。你可以通过任务管理器或活动监视器确认进程存在。

如果是 Linux 服务器,确保服务正在运行:

systemctl status ollama

Step 2:运行第一个模型

在终端中输入:

ollama run llama3.1

首次运行时,Ollama 会自动:

  1. 检查本地是否有 llama3.1 模型
  2. 如果没有,自动从 Hugging Face 下载(约 4.7GB)
  3. 加载到内存并开始对话

耐心等待下载完成,网速快的话大约需要 3-5 分钟。

Step 3:体验对话

模型加载完毕后,你会看到这样的提示:

>>> 

这时可以开始输入问题了!比如:

你好,请介绍一下你自己

LLama 3.1 会以自然语言回应你。试着问一些复杂的问题:

请用 Python 写一个快速排序算法,并解释每一步

Ctrl+C 退出对话,或输入 /bye 结束会话。

Step 4:列出已安装的模型

ollama list

输出示例:

NAME            ID              SIZE    MODIFIED
llama3.1        8a7b9e...       4.7 GB  2 小时前

Step 5:删除不需要的模型

ollama rm llama3.1

常用模型推荐

Ollama 支持几十种开源模型,以下是精选的几类:

🧠 全能型大模型

模型名称大小特点适用场景
llama3.14.7GBMeta 最新,综合性能最强日常对话、写作、编程
llama3.1:70b40GB更大版本,智商更高但更吃资源需要高智能的任务
mistral4.1GB欧洲开源强模,代码能力强编程辅助
gemma2:9b5.6GBGoogle 出品,多语言能力优秀跨语言任务

💻 编程专用

模型名称大小特点
codellama3.8GB专注代码生成和调试
deepseek-coder2.9GB中文代码注释理解好
starcoder23.8GB支持多种编程语言

📱 小型高效

模型名称大小特点
phi32.3GBMicrosoft 轻量模型,速度超快
tinyllama0.4GB极小体积,适合测试
qwen2:0.5b0.4GB阿里出品,最小却有用

🚀 快速上手组合推荐

入门用户(普通笔记本):

# 最平衡的选择
ollama run llama3.1

# 或者更快更小
ollama run phi3

开发者

# 编程专用
ollama run codellama

# 中英双语
ollama run qwen2:7b

专业用户(高配 PC):

# 最大能力
ollama run llama3.1:70b

API 接口使用

Ollama 内置了一个简单的 RESTful API,方便你集成到自己的程序中。

启动 API 服务

默认情况下,只要 Ollama 在运行,API 就自动可用。API 监听在 http://localhost:11434

基本 API 端点

1. 生成回答(聊天)

HTTP 请求

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1",
  "prompt": "请介绍量子计算的基本原理",
  "stream": false
}'

Python 示例

import requests

response = requests.post('http://localhost:11434/api/chat', json={
    'model': 'llama3.1',
    'messages': [{'role': 'user', 'content': '你好'}]
})

print(response.json()['message']['content'])

2. 列出可用模型

curl http://localhost:11434/api/tags

3. 复制模型

curl http://localhost:11434/api/copy -d '{
  "source": "llama3.1",
  "destination": "my-llama"
}'

使用 Python 客户端

安装依赖:

pip install ollama

使用示例:

import ollama

# 简单聊天
response = ollama.chat(model='llama3.1', messages=[
  {
    'role': 'user',
    'content': '用 Python 写个斐波那契数列',
  },
])

print(response['message']['content'])

高级配置

环境变量设置

# 自定义模型存储路径
export OLLAMA_MODELS="/data/ollama/models"

# 指定 GPU 设备(CUDA)
export CUDA_VISIBLE_DEVICES=0,1

# 调整批处理大小(影响性能和内存占用)
export OLLAMA_NUM_PARALLEL=4

# 设置日志级别
export OLLAMA_DEBUG=true

Modelfile 自定义模型

你可以基于现有模型修改参数:

创建 Modelfile

FROM llama3.1

# 设置温度(创造性)
PARAMETER temperature 0.7

# 设置上下文长度
PARAMETER num_ctx 4096

# 系统指令
SYSTEM "你是一个专业的编程助手,总是给出简洁准确的代码解答。"

构建自定义模型

ollama create my-coder -f Modelfile
ollama run my-coder

Docker 持久化配置

# 挂载外部存储
docker run -d \
  -v /your/host/path:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

故障排查

问题 1:安装后找不到命令

症状command not found: ollama

解决方案

  1. 检查 PATH 环境变量

    echo $PATH | grep ollama
    
  2. 重新安装

    # macOS
    brew reinstall ollama
    
    # Linux
    sudo systemctl restart ollama
    
  3. 重启终端:有时需要完全关闭再打开终端窗口

问题 2:下载模型超时或失败

症状:下载过程卡住或报错

解决方案

  1. 检查网络连接:确保可以访问 GitHub 和 HuggingFace

    ping huggingface.co
    
  2. 使用国内镜像源(仅限中国大陆用户):

    export HF_ENDPOINT=https://hf-mirror.com
    
  3. 断点续传:删除失败的文件重新下载

    ollama pull --help  # 查看下载进度选项
    

问题 3:内存不足

症状out of memory 错误

解决方案

  1. 使用小模型

    ollama run phi3  # 比 llama3.1 小很多
    
  2. 关闭其他应用:释放更多内存

  3. 限制并发数

    export OLLAMA_NUM_PARALLEL=1
    

问题 4:GPU 未启用

症状:模型运行很慢

解决方案

  1. 检查 GPU 识别

    nvidia-smi  # NVIDIA 用户
    system_profiler SPDisplaysDataType  # Mac 用户
    
  2. 确认驱动正常:确保显卡驱动已正确安装

  3. 环境变量强制指定

    export ROCM_PATH=/opt/rocm  # AMD GPU
    

问题 5:端口冲突

症状address already in use

解决方案

  1. 找到占用进程

    lsof -i :11434
    
  2. 杀掉进程或更改端口

    kill -9 <PID>
    
    # 或使用不同端口启动
    ollama serve --port 11435
    

总结

恭喜你完成了 Ollama 的完整安装之旅!现在你已经掌握了:

三大平台安装方法:macOS、Linux、Windows 任选其一
模型选择和运行:从 llama3.1 到 phi3,按需选择
API 集成技巧:可以在自己的项目中调用 AI
问题解决能力:遇到常见错误知道怎么修复

🎉 下一步建议

  1. 尝试不同模型:对比各种模型的效果差异
  2. 探索 API 功能:把你的网站/App 接入 AI
  3. 分享成果:写一篇你的使用体验文章
  4. 加入社区:关注 Ollama GitHub 获取最新动态

📚 延伸阅读