DeepSeekをローカルに展開する方法

lang

date

Mar 14, 2025

slug

Post-12-ja

status

Published

tags

技术分享

summary

軽量ローカル大規模言語モデル

type

Post

最近、ゲームNPCのAI対話システムに取り組んでいて、DeepSeekの軽量なローカルビッグランゲージモデルをデプロイしようとしたので、今日はその落とし穴とプロセスを共有しようと思う。

Ollama "をインストールするには、公式サイトのホームページから "Download "をクリックしてダウンロードし、通常のインストールを行う。

または、ターミナルを使用してインストールします。


brew install ollama

Ollamaのインストールが完了したら、DeepSeekの導入を開始します。

DeepSeekに適した機種の選択については、こちらのURLをご参照ください：https://huggingface.co/deepseek-ai

私のデバイスはMacBook Air(M2+8G)ですが、メモリが少ないため、最小モデルのdeepseek-r1:1.5bを選択しました。

ターミナルを開き、DeepSeekモデルをプルし始める。


ollama pull deepseek-r1:1.5b

完了したら、対話モードに入りましょう：


ollama run deepseek-r1:1.5b

要約に名前を付けます：

ダウンロードしたモデルの表示


ollama list

モデルの削除


ollama rm モデル名

モデルの実行 (対話型)


ollama run モデル名

質問する


ollama run モデル名 -p "あなたの質問"

モデルのダウンロード


ollama pull モデル名

パフォーマンスの最適化について

1、設定ファイルを作成または編集する：


nano ~/.ollama/config

2、設定情報を追加する (~/.ollama/config)：


{
  "gpu_layers": 35,         // GPUレイヤーの数はグラフィックカードの性能に応じて調整されます
  "cpu_threads": 6,         // CPUスレッドの数はCPUコアの数に設定することを推奨します。
  "batch_size": 512,        // バッチサイズはメモリ使用量に影響します
  "context_size": 4096      // コンテキストウィンドウのサイズは会話の長さに影響します
}

3、ollamaサービスを再起動してください。


ollama stop 
ollama start
ollama run deepseek-r1:5b

4、パフォーマンスチューニングの提案

コンピュータが熱く、ラグい場合：gpu_layersとbatch_sizeを減らす。

メモリ不足の場合：バッチサイズを小さくする。

より長い対話が必要な場合：context_sizeを大きくする（より多くのメモリを消費する）。

cpu_threadsは実際のCPUコア数-2に設定することを推奨。

5、パフォーマンスの参考

メモリ使用量：～12～14GB

最初のロード：30-60秒

ダイアログ遅延：1～3秒

コンテキストウィンドウ：4096トークン

6、最適化の効果を確認する

モデルダイアログ画面に長い質問を入力

💡

量子コンピューティングの基礎について詳しく説明してください。

CPUとメモリ使用量の表示

top

ウェブUIビジュアルアクセス

ChatGPTのようなWebページと対話したい場合は、次のようなWeb UIと組み合わせることができます：

open-webui


docker run -d -p 3000:3000 -e OLLAMA_HOST=http://host.docker.internal:11434 --name open-webui ghcr.io/open-webui/open-webui:main

のようなWeb UIと組み合わせ、ブラウザを開いてアクセスします：

http://localhost:3000

ログインすると、自動的にローカルのOllamaに接続され、ダウンロードしたモデル(例えばdeepseek-r1:5b)が表示されます。