DeepSeekをローカルに展開する方法
lang
ja
date
Mar 14, 2025
slug
Post-12-ja
status
Published
tags
技术分享
summary
軽量ローカル大規模言語モデル
type
Post
最近、ゲームNPCのAI対話システムに取り組んでいて、DeepSeekの軽量なローカルビッグランゲージモデルをデプロイしようとしたので、今日はその落とし穴とプロセスを共有しようと思う。
Ollama "をインストールするには、公式サイトのホームページから "Download "をクリックしてダウンロードし、通常のインストールを行う。

または、ターミナルを使用してインストールします。
brew install ollama
Ollamaのインストールが完了したら、DeepSeekの導入を開始します。
DeepSeekに適した機種の選択については、こちらのURLをご参照ください:https://huggingface.co/deepseek-ai
私のデバイスはMacBook Air(M2+8G)ですが、メモリが少ないため、最小モデルのdeepseek-r1:1.5bを選択しました。
ターミナルを開き、DeepSeekモデルをプルし始める。
ollama pull deepseek-r1:1.5b

完了したら、対話モードに入りましょう:
ollama run deepseek-r1:1.5b

要約に名前を付けます:
ダウンロードしたモデルの表示
ollama list
モデルの削除
ollama rm モデル名
モデルの実行 (対話型)
ollama run モデル名
質問する
ollama run モデル名 -p "あなたの質問"
モデルのダウンロード
ollama pull モデル名
パフォーマンスの最適化について
1、設定ファイルを作成または編集する:
nano ~/.ollama/config
2、設定情報を追加する (~/.ollama/config):
{ "gpu_layers": 35, // GPUレイヤーの数はグラフィックカードの性能に応じて調整されます "cpu_threads": 6, // CPUスレッドの数はCPUコアの数に設定することを推奨します。 "batch_size": 512, // バッチサイズはメモリ使用量に影響します "context_size": 4096 // コンテキストウィンドウのサイズは会話の長さに影響します }
3、ollamaサービスを再起動してください。
ollama stop ollama start ollama run deepseek-r1:5b
4、パフォーマンスチューニングの提案
- コンピュータが熱く、ラグい場合:gpu_layersとbatch_sizeを減らす。
- メモリ不足の場合:バッチサイズを小さくする。
- より長い対話が必要な場合:context_sizeを大きくする(より多くのメモリを消費する)。
- cpu_threadsは実際のCPUコア数-2に設定することを推奨。
5、パフォーマンスの参考
- メモリ使用量:~12~14GB
- 最初のロード:30-60秒
- ダイアログ遅延:1~3秒
- コンテキストウィンドウ:4096トークン
6、最適化の効果を確認する
モデルダイアログ画面に長い質問を入力
量子コンピューティングの基礎について詳しく説明してください。
CPUとメモリ使用量の表示
top
ウェブUIビジュアルアクセス
ChatGPTのようなWebページと対話したい場合は、次のようなWeb UIと組み合わせることができます:
open-webui
docker run -d -p 3000:3000 -e OLLAMA_HOST=http://host.docker.internal:11434 --name open-webui ghcr.io/open-webui/open-webui:main
のようなWeb UIと組み合わせ、ブラウザを開いてアクセスします:
ログインすると、自動的にローカルのOllamaに接続され、ダウンロードしたモデル(例えばdeepseek-r1:5b)が表示されます。