如何在本地部署DeepSeek

lang

date

Mar 14, 2025

slug

Post-12

status

Published

tags

技术分享

summary

轻量级的本地大语言模型

type

Post

最近我在研究 AI 对话系统用于游戏 NPC，并尝试部署了DeepSeek轻量级的本地大语言模型，今天就来分享一下我的踩坑与流程。

选择官网安装“ Ollama ”首页点击“Download ”下载之后，正常安装。

或者使用终端来安装


brew install ollama

Ollama安装完成后我们开始部署DeepSeek

关于选择DeepSeek适合的模型可以参考这个网址：https://huggingface.co/deepseek-ai

我的设备是MacBook Air（M2+8G），因为内存很小，所以我就选择了最小的模型 deepseek-r1:1.5b

我们打开终端开始拉取DeepSeek模型


ollama pull deepseek-r1:1.5b

完成后让我们进入交互模式：


ollama run deepseek-r1:1.5b

命名总结：

查看已下载模型


ollama list

删除模型


ollama rm 模型名

运行模型（交互）


ollama run 模型名

一句话提问


ollama run 模型名 -p "你的问题"

下载模型


ollama pull 模型名

关于优化性能

1、创建或编辑配置文件：


nano ~/.ollama/config

2、添加配置信息（~/.ollama/config）：


{
  "gpu_layers": 35,         // GPU层数，根据显卡性能调整
  "cpu_threads": 6,         // CPU线程数，建议设为CPU核心数
  "batch_size": 512,        // 批处理大小，影响内存使用
  "context_size": 4096      // 上下文窗口大小，影响对话长度
}

3、重启ollama服务生效


ollama stop 
ollama start
ollama run deepseek-r1:5b

4、性能调优建议：

如果电脑发烫/卡顿：减小 gpu_layers 和 batch_size

如果内存不足：减小 batch_size

如果需要更长对话：增加 context_size（会消耗更多内存）

cpu_threads 建议设置为实际CPU核心数-2

5、性能参考

内存占用：~12-14GB

首次加载：30-60秒

对话延迟：1-3秒

上下文窗口：4096 tokens

6、验证优化生效

在模型对话界面输入一个较长的问题

💡

请给我详细解释一下量子计算的基本原理，要求回答内容超过500字

查看CPU和内存使用

top

Web UI 可视化访问

如果你想像 ChatGPT 那样用网页交互，可以搭配一个 Web UI，比如：

open-webui


docker run -d -p 3000:3000 -e OLLAMA_HOST=http://host.docker.internal:11434 --name open-webui ghcr.io/open-webui/open-webui:main

然后打开浏览器访问：

http://localhost:3000

登录进去后，它会自动连接本地 Ollama，显示你下载的模型（如 deepseek-r1:5b）。