Ollama: Qwen3.5-40B-Claude-4.6-Opus-Deckard セットアップ¶

📁 docs/dev-environment/artifact/ollama-deckard-40b-setup.md

モデル情報¶

項目	値
ベース	DavidAU/Qwen3.5-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking
GGUF提供	mradermacher（imatrix版）
量子化	IQ3_S（16GB VRAM向け）
コンテキスト	256K対応（デフォルト16K設定）
モード	Thinking（デフォルト）/ INSTRUCT切替可

セットアップ手順¶

1. 環境変数（設定済み）¶

OLLAMA_HOST=0.0.0.0:11434   # 外部公開
OLLAMA_ORIGINS=*             # CORS許可

※変更は %APPDATA%\Microsoft\Windows\PowerShell\ 配下のProfile、またはシステム環境変数から確認。

2. モデル登録¶

# HuggingFaceからpull（初回のみ・約16GB）
ollama pull "hf.co/mradermacher/Qwen3.5-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-i1-GGUF:IQ3_S"

# フレンドリー名で登録
ollama create deckard-40b -f docs/dev-environment/artifact/deckard-40b.Modelfile

# 確認
ollama list

3. 動作確認¶

# ローカルテスト
ollama run deckard-40b "Windowsのシステムプログラミングについて簡潔に説明して"

# API経由テスト
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deckard-40b",
    "messages": [{"role": "user", "content": "hello"}],
    "stream": false
  }'

他デバイスからの接続¶

Mac（同一LAN）¶

# 環境変数設定
export OLLAMA_HOST=192.168.11.44:11434

# または直接URL指定
curl http://192.168.11.44:11434/v1/chat/completions ...

Mac（Tailscale経由）¶

export OLLAMA_HOST=100.87.120.65:11434

Open WebUI（Dockerで立てる場合）¶

docker run -d \
  -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://192.168.11.44:11434 \
  ghcr.io/open-webui/open-webui:main

Claude Code連携¶

secure-llmスキルで使用¶

/secure-llm

→ Ollamaへのルーティングはスキル側が処理。モデル名に deckard-40b を指定。

スクリプトから直接呼び出し¶

import requests

def ask_deckard(prompt: str, thinking: bool = True) -> str:
    """Deckard-40Bに問い合わせ（ローカルのみ・プライバシー保護）"""
    res = requests.post(
        "http://localhost:11434/v1/chat/completions",
        json={
            "model": "deckard-40b",
            "messages": [{"role": "user", "content": prompt}],
            "stream": False,
        }
    )
    return res.json()["choices"][0]["message"]["content"]

Thinkingモード vs INSTRUCTモード¶

モード	速度	品質	用途
Thinking（デフォルト）	遅い	高い	複雑な推論・コーディング
INSTRUCT	速い	標準	日常会話・軽いタスク

INSTRUCTモードへの切り替え¶

Modelfileを編集してTEMPLATEセクションに enable_thinking = false を追加し、 ollama create deckard-40b-instruct -f ... で別名で登録する。

トラブルシューティング¶

ループが発生する場合¶

repeat_penalty を 1.05 に上げる
システムプロンプトが機能しているか確認

速度が遅い場合¶

ollama ps でGPU使用率確認
VRAM不足の場合は num_ctx を 8192 に下げる
OLLAMA_FLASH_ATTENTION=1（設定済み）が有効か確認

Macから繋がらない場合¶

Windows Firewallで11434ポートを開放

New-NetFirewallRule -DisplayName "Ollama" -Direction Inbound -Protocol TCP -LocalPort 11434 -Action Allow