コンテンツにスキップ

Ollama: Qwen3.5-40B-Claude-4.6-Opus-Deckard セットアップ

📁 docs/dev-environment/artifact/ollama-deckard-40b-setup.md

モデル情報

項目
ベース DavidAU/Qwen3.5-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking
GGUF提供 mradermacher(imatrix版)
量子化 IQ3_S(16GB VRAM向け)
コンテキスト 256K対応(デフォルト16K設定)
モード Thinking(デフォルト)/ INSTRUCT切替可

セットアップ手順

1. 環境変数(設定済み)

OLLAMA_HOST=0.0.0.0:11434   # 外部公開
OLLAMA_ORIGINS=*             # CORS許可

※変更は %APPDATA%\Microsoft\Windows\PowerShell\ 配下のProfile、またはシステム環境変数から確認。

2. モデル登録

# HuggingFaceからpull(初回のみ・約16GB)
ollama pull "hf.co/mradermacher/Qwen3.5-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-i1-GGUF:IQ3_S"

# フレンドリー名で登録
ollama create deckard-40b -f docs/dev-environment/artifact/deckard-40b.Modelfile

# 確認
ollama list

3. 動作確認

# ローカルテスト
ollama run deckard-40b "Windowsのシステムプログラミングについて簡潔に説明して"

# API経由テスト
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deckard-40b",
    "messages": [{"role": "user", "content": "hello"}],
    "stream": false
  }'

他デバイスからの接続

Mac(同一LAN)

# 環境変数設定
export OLLAMA_HOST=192.168.11.44:11434

# または直接URL指定
curl http://192.168.11.44:11434/v1/chat/completions ...

Mac(Tailscale経由)

export OLLAMA_HOST=100.87.120.65:11434

Open WebUI(Dockerで立てる場合)

docker run -d \
  -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://192.168.11.44:11434 \
  ghcr.io/open-webui/open-webui:main

Claude Code連携

secure-llmスキルで使用

/secure-llm
→ Ollamaへのルーティングはスキル側が処理。モデル名に deckard-40b を指定。

スクリプトから直接呼び出し

import requests

def ask_deckard(prompt: str, thinking: bool = True) -> str:
    """Deckard-40Bに問い合わせ(ローカルのみ・プライバシー保護)"""
    res = requests.post(
        "http://localhost:11434/v1/chat/completions",
        json={
            "model": "deckard-40b",
            "messages": [{"role": "user", "content": prompt}],
            "stream": False,
        }
    )
    return res.json()["choices"][0]["message"]["content"]

Thinkingモード vs INSTRUCTモード

モード 速度 品質 用途
Thinking(デフォルト) 遅い 高い 複雑な推論・コーディング
INSTRUCT 速い 標準 日常会話・軽いタスク

INSTRUCTモードへの切り替え

Modelfileを編集してTEMPLATEセクションに enable_thinking = false を追加し、 ollama create deckard-40b-instruct -f ... で別名で登録する。

トラブルシューティング

ループが発生する場合

  • repeat_penalty1.05 に上げる
  • システムプロンプトが機能しているか確認

速度が遅い場合

  • ollama ps でGPU使用率確認
  • VRAM不足の場合は num_ctx8192 に下げる
  • OLLAMA_FLASH_ATTENTION=1(設定済み)が有効か確認

Macから繋がらない場合

  • Windows Firewallで11434ポートを開放
    New-NetFirewallRule -DisplayName "Ollama" -Direction Inbound -Protocol TCP -LocalPort 11434 -Action Allow