コンテンツにスキップ

Qwen3.6-35B-A3B セットアップガイド（Mac M5）¶

📁 docs/dev-environment/artifact/20260504_qwen36-35b-a3b-setup.md

関連イシュー: #500 / #398

🖥️ 動作環境¶

項目	値
端末	MacBook Air (Mac17,4)
チップ	Apple M5
RAM	32 GB
Ollama	0.23.0（MLX統合、MLX 0.31.2）
モデル	qwen3.6:35b-a3b-q4_K_M
モデルサイズ	~23 GB

🚀 セットアップ手順¶

1. Ollama アップグレード（MLX統合版）¶

brew upgrade ollama
brew services restart ollama
ollama --version  # 0.23.0 であることを確認

2. モデル pull¶

ollama pull qwen3.6:35b-a3b-q4_K_M
# 約23GB、回線速度により20〜40分

3. Modelfileからフレンドリー名で登録¶

ollama create qwen36 -f docs/dev-environment/artifact/qwen36-35b-a3b.Modelfile

4. 動作確認¶

ollama run qwen36 "Pythonでフィボナッチ数列を生成する関数を書いて"

⚡ 性能目安（M5 + MLX）¶

指標	目安値
MoE active params	3B（推論コスト低）
推定 tok/s	40〜80 tok/s
コンテキスト	32,768 tokens（設定値）/ 最大262K

[!NOTE] MLX最適化が有効な場合、Ollama 0.19+ でprefill速度1.6倍・decode速度2倍（非MLX比）。 M5はM4より Neural Accelerator が強化されており、M4比でさらに高速。

📊 モデル評価（2026年5月時点）¶

ベンチマーク	スコア
SWE-bench Verified	73.4%
SWE-bench Multilingual	67.2%
Terminal-Bench 2.0	51.5%
MCPMark（ツール使用）	37.0%

参考：Claude Sonnet 4.6 のSWE-bench は ~65%

🔧 Modelfile パラメータ解説¶

パラメータ	値	理由
temperature	0.6	コーディング用に低め設定
num_ctx	32768	M5 32GBで安定する範囲
repeat_penalty	1.05	MoEの繰り返し防止

⚠️ 注意事項¶

Thinkingモード（/think）有効時はトークン速度が下がるが回答精度が向上
起動時に全35Bウェイトをメモリにロードするため初回起動に数十秒かかる
Flash Attention が自動有効化される（Ollama 0.23.0でデフォルト）

関連ファイル¶

docs/dev-environment/artifact/qwen36-35b-a3b.Modelfile
docs/dev-environment/artifact/ollama-claude47-opus-local-setup.md（参考）
docs/dev-environment/artifact/deckard-40b.Modelfile（参考）