Qwen3.6-35B-A3B セットアップガイド(Mac M5)¶
📁 docs/dev-environment/artifact/20260504_qwen36-35b-a3b-setup.md
関連イシュー: #500 / #398
🖥️ 動作環境¶
| 項目 | 値 |
|---|---|
| 端末 | MacBook Air (Mac17,4) |
| チップ | Apple M5 |
| RAM | 32 GB |
| Ollama | 0.23.0(MLX統合、MLX 0.31.2) |
| モデル | qwen3.6:35b-a3b-q4_K_M |
| モデルサイズ | ~23 GB |
🚀 セットアップ手順¶
1. Ollama アップグレード(MLX統合版)¶
2. モデル pull¶
3. Modelfileからフレンドリー名で登録¶
4. 動作確認¶
⚡ 性能目安(M5 + MLX)¶
| 指標 | 目安値 |
|---|---|
| MoE active params | 3B(推論コスト低) |
| 推定 tok/s | 40〜80 tok/s |
| コンテキスト | 32,768 tokens(設定値)/ 最大262K |
[!NOTE] MLX最適化が有効な場合、Ollama 0.19+ でprefill速度1.6倍・decode速度2倍(非MLX比)。 M5はM4より Neural Accelerator が強化されており、M4比でさらに高速。
📊 モデル評価(2026年5月時点)¶
| ベンチマーク | スコア |
|---|---|
| SWE-bench Verified | 73.4% |
| SWE-bench Multilingual | 67.2% |
| Terminal-Bench 2.0 | 51.5% |
| MCPMark(ツール使用) | 37.0% |
参考:Claude Sonnet 4.6 のSWE-bench は ~65%
🔧 Modelfile パラメータ解説¶
| パラメータ | 値 | 理由 |
|---|---|---|
| temperature | 0.6 | コーディング用に低め設定 |
| num_ctx | 32768 | M5 32GBで安定する範囲 |
| repeat_penalty | 1.05 | MoEの繰り返し防止 |
⚠️ 注意事項¶
- Thinkingモード(
/think)有効時はトークン速度が下がるが回答精度が向上 - 起動時に全35Bウェイトをメモリにロードするため初回起動に数十秒かかる
- Flash Attention が自動有効化される(Ollama 0.23.0でデフォルト)
関連ファイル¶
docs/dev-environment/artifact/qwen36-35b-a3b.Modelfiledocs/dev-environment/artifact/ollama-claude47-opus-local-setup.md(参考)docs/dev-environment/artifact/deckard-40b.Modelfile(参考)