如何在本地部署DeepSeek
lang
zh
date
Mar 14, 2025
slug
Post-12
status
Published
tags
技术分享
summary
轻量级的本地大语言模型
type
Post
最近我在研究 AI 对话系统用于游戏 NPC,并尝试部署了DeepSeek轻量级的本地大语言模型,今天就来分享一下我的踩坑与流程。
选择官网安装“ Ollama ”首页点击“Download ”下载之后,正常安装。

或者使用终端来安装
brew install ollama
Ollama安装完成后我们开始部署DeepSeek
关于选择DeepSeek适合的模型可以参考这个网址:https://huggingface.co/deepseek-ai
我的设备是MacBook Air(M2+8G),因为内存很小,所以我就选择了最小的模型 deepseek-r1:1.5b
我们打开终端开始拉取DeepSeek模型
ollama pull deepseek-r1:1.5b

完成后让我们进入交互模式:
ollama run deepseek-r1:1.5b

命名总结:
查看已下载模型
ollama list
删除模型
ollama rm 模型名
运行模型(交互)
ollama run 模型名
一句话提问
ollama run 模型名 -p "你的问题"
下载模型
ollama pull 模型名
关于优化性能
1、创建或编辑配置文件:
nano ~/.ollama/config
2、添加配置信息(~/.ollama/config):
{ "gpu_layers": 35, // GPU层数,根据显卡性能调整 "cpu_threads": 6, // CPU线程数,建议设为CPU核心数 "batch_size": 512, // 批处理大小,影响内存使用 "context_size": 4096 // 上下文窗口大小,影响对话长度 }
3、重启ollama服务生效
ollama stop ollama start ollama run deepseek-r1:5b
4、性能调优建议:
- 如果电脑发烫/卡顿:减小 gpu_layers 和 batch_size
- 如果内存不足:减小 batch_size
- 如果需要更长对话:增加 context_size(会消耗更多内存)
- cpu_threads 建议设置为实际CPU核心数-2
5、性能参考
- 内存占用:~12-14GB
- 首次加载:30-60秒
- 对话延迟:1-3秒
- 上下文窗口:4096 tokens
6、验证优化生效
在模型对话界面输入一个较长的问题
请给我详细解释一下量子计算的基本原理,要求回答内容超过500字
查看CPU和内存使用
top
Web UI 可视化访问
如果你想像 ChatGPT 那样用网页交互,可以搭配一个 Web UI,比如:
open-webui
docker run -d -p 3000:3000 -e OLLAMA_HOST=http://host.docker.internal:11434 --name open-webui ghcr.io/open-webui/open-webui:main
然后打开浏览器访问:
登录进去后,它会自动连接本地 Ollama,显示你下载的模型(如 deepseek-r1:5b)。