Ollama: Qwen3.5-40B-Claude-4.6-Opus-Deckard セットアップ¶
📁 docs/dev-environment/artifact/ollama-deckard-40b-setup.md
モデル情報¶
| 項目 | 値 |
|---|---|
| ベース | DavidAU/Qwen3.5-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking |
| GGUF提供 | mradermacher(imatrix版) |
| 量子化 | IQ3_S(16GB VRAM向け) |
| コンテキスト | 256K対応(デフォルト16K設定) |
| モード | Thinking(デフォルト)/ INSTRUCT切替可 |
セットアップ手順¶
1. 環境変数(設定済み)¶
※変更は %APPDATA%\Microsoft\Windows\PowerShell\ 配下のProfile、またはシステム環境変数から確認。
2. モデル登録¶
# HuggingFaceからpull(初回のみ・約16GB)
ollama pull "hf.co/mradermacher/Qwen3.5-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-i1-GGUF:IQ3_S"
# フレンドリー名で登録
ollama create deckard-40b -f docs/dev-environment/artifact/deckard-40b.Modelfile
# 確認
ollama list
3. 動作確認¶
# ローカルテスト
ollama run deckard-40b "Windowsのシステムプログラミングについて簡潔に説明して"
# API経由テスト
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deckard-40b",
"messages": [{"role": "user", "content": "hello"}],
"stream": false
}'
他デバイスからの接続¶
Mac(同一LAN)¶
# 環境変数設定
export OLLAMA_HOST=192.168.11.44:11434
# または直接URL指定
curl http://192.168.11.44:11434/v1/chat/completions ...
Mac(Tailscale経由)¶
Open WebUI(Dockerで立てる場合)¶
docker run -d \
-p 3000:8080 \
-e OLLAMA_BASE_URL=http://192.168.11.44:11434 \
ghcr.io/open-webui/open-webui:main
Claude Code連携¶
secure-llmスキルで使用¶
→ Ollamaへのルーティングはスキル側が処理。モデル名にdeckard-40b を指定。 スクリプトから直接呼び出し¶
import requests
def ask_deckard(prompt: str, thinking: bool = True) -> str:
"""Deckard-40Bに問い合わせ(ローカルのみ・プライバシー保護)"""
res = requests.post(
"http://localhost:11434/v1/chat/completions",
json={
"model": "deckard-40b",
"messages": [{"role": "user", "content": prompt}],
"stream": False,
}
)
return res.json()["choices"][0]["message"]["content"]
Thinkingモード vs INSTRUCTモード¶
| モード | 速度 | 品質 | 用途 |
|---|---|---|---|
| Thinking(デフォルト) | 遅い | 高い | 複雑な推論・コーディング |
| INSTRUCT | 速い | 標準 | 日常会話・軽いタスク |
INSTRUCTモードへの切り替え¶
Modelfileを編集してTEMPLATEセクションに enable_thinking = false を追加し、 ollama create deckard-40b-instruct -f ... で別名で登録する。
トラブルシューティング¶
ループが発生する場合¶
repeat_penaltyを1.05に上げる- システムプロンプトが機能しているか確認
速度が遅い場合¶
ollama psでGPU使用率確認- VRAM不足の場合は
num_ctxを8192に下げる OLLAMA_FLASH_ATTENTION=1(設定済み)が有効か確認
Macから繋がらない場合¶
- Windows Firewallで11434ポートを開放