コンテンツにスキップ

Qwen3.6-35B-A3B セットアップガイド(Mac M5)

📁 docs/dev-environment/artifact/20260504_qwen36-35b-a3b-setup.md

関連イシュー: #500 / #398

🖥️ 動作環境

項目
端末 MacBook Air (Mac17,4)
チップ Apple M5
RAM 32 GB
Ollama 0.23.0(MLX統合、MLX 0.31.2)
モデル qwen3.6:35b-a3b-q4_K_M
モデルサイズ ~23 GB

🚀 セットアップ手順

1. Ollama アップグレード(MLX統合版)

brew upgrade ollama
brew services restart ollama
ollama --version  # 0.23.0 であることを確認

2. モデル pull

ollama pull qwen3.6:35b-a3b-q4_K_M
# 約23GB、回線速度により20〜40分

3. Modelfileからフレンドリー名で登録

ollama create qwen36 -f docs/dev-environment/artifact/qwen36-35b-a3b.Modelfile

4. 動作確認

ollama run qwen36 "Pythonでフィボナッチ数列を生成する関数を書いて"

⚡ 性能目安(M5 + MLX)

指標 目安値
MoE active params 3B(推論コスト低)
推定 tok/s 40〜80 tok/s
コンテキスト 32,768 tokens(設定値)/ 最大262K

[!NOTE] MLX最適化が有効な場合、Ollama 0.19+ でprefill速度1.6倍・decode速度2倍(非MLX比)。 M5はM4より Neural Accelerator が強化されており、M4比でさらに高速。

📊 モデル評価(2026年5月時点)

ベンチマーク スコア
SWE-bench Verified 73.4%
SWE-bench Multilingual 67.2%
Terminal-Bench 2.0 51.5%
MCPMark(ツール使用) 37.0%

参考:Claude Sonnet 4.6 のSWE-bench は ~65%

🔧 Modelfile パラメータ解説

パラメータ 理由
temperature 0.6 コーディング用に低め設定
num_ctx 32768 M5 32GBで安定する範囲
repeat_penalty 1.05 MoEの繰り返し防止

⚠️ 注意事項

  • Thinkingモード(/think)有効時はトークン速度が下がるが回答精度が向上
  • 起動時に全35Bウェイトをメモリにロードするため初回起動に数十秒かかる
  • Flash Attention が自動有効化される(Ollama 0.23.0でデフォルト)

関連ファイル

  • docs/dev-environment/artifact/qwen36-35b-a3b.Modelfile
  • docs/dev-environment/artifact/ollama-claude47-opus-local-setup.md(参考)
  • docs/dev-environment/artifact/deckard-40b.Modelfile(参考)