コンテンツにスキップ

ローカルLLM増強プラン相談

📁 docs/dev-environment/artifact/wip/20260315_ローカルLLM増強プラン相談.md

作成日: 2026-03-15 目的: 現在のPC構成をベースに、ローカルLLM環境をどう強化すべきかディープリサーチで相談するための資料


1. 現在のPC構成(スペック一覧)

カテゴリ スペック
OS Windows 11 Pro 64-bit (Build 26200)
CPU Intel Core Ultra 7 265K(Arrow Lake)20コア/20スレッド、最大3.9GHz
RAM 64GB DDR5-5600(32GB × 2枚)
GPU NVIDIA GeForce RTX 5070 Ti(Blackwell, sm_120)VRAM 16GB、Compute Capability 12.0
ドライバ NVIDIA 581.29
ストレージ1 WD Blue SN570 1TB NVMe
ストレージ2 WDC WDS500G2B0C 500GB NVMe
ストレージ3 Predator SSD GM7 2TB NVMe
ストレージ合計 約3.5TB(NVMe × 3本)

2. 現在のローカルLLM環境

Ollamaバージョン: 0.17.7

インストール済みモデル一覧

モデル名 サイズ 用途・特徴
llama4:latest 67GB Meta Llama 4(MoE系、巨大)
gemma3:27b 17GB Google Gemma 3 27Bパラメータ
qwen3:30b 18GB Alibaba Qwen3 30B
qwen3-coder:30b 18GB Qwen3コーディング特化
gpt-oss:20b 13GB Microsoft Phi系 20B
gemma3:12b 8.1GB Gemma 3 12B
llama3.1:8b 4.9GB Meta Llama 3.1 8B
qwen3:1.7b 1.4GB 軽量モデル
qwen2.5-coder:1.5b-base 986MB 軽量コーディング
gemma3:270m 291MB 超軽量(テスト用)
nomic-embed-text 274MB Embeddingモデル

モデル合計容量: 約149GB(3.5TB中の約4%)


3. 現状分析・ボトルネック

VRAMの制約(最大の課題)

  • VRAM 16GBでは、以下のモデルがGPU単独では乗り切らない
  • llama4:latest(67GB) → システムRAM+CPU offload → 非常に低速
  • gemma3:27b(17GB)、qwen3:30b(18GB)→ 一部CPU offload → やや低速
  • VRAMに完全に乗るのは事実上 gemma3:12b(8GB量子化)以下
  • Q4量子化で VRAM16GBに乗るのは最大約30Bモデルまで(ギリギリ)

CPUとRAMは余裕あり

  • RAM 64GB DDR5-5600 → CPU offloadモデルも一定速度で動作可能
  • CPU 20コア → CPU推論も比較的高速

ストレージは問題なし

  • 3.5TB NVMeで大型モデルの保管・スワップは余裕

4. 相談・検討したい課題

Q1. VRAMを増やすべきか?どの方法が費用対効果が高いか?

選択肢A: RTX 5080(VRAM 16GB)への換装 - VRAM容量は変わらず(16GB)だが、演算性能が向上 - コスト:約15〜20万円

選択肢B: RTX 5080 Super / RTX 5090 への換装 - 5090はVRAM 32GB → 30Bモデルを余裕でGPU全乗せ可能 - コスト:5090は約35〜50万円(高価)

選択肢C: 複数GPU構成(NVLink/CUDA P2P) - 同種GPU 2枚でVRAMを実質合算 - RTX世代はNVLink非対応が多く、Ollamaでの複数GPU活用は現時点で限定的

選択肢D: RAM増設(64GB→128GB) - CPU offloadの速度は若干改善 - 費用は安い(DDR5-5600 32GB×2 追加で2〜4万円程度) - 根本的なVRAM不足は解消しない

Q2. 現在のハードウェアで最も効率よく動かせるモデルサイズは?

  • VRAM 16GBに最適なパラメータ数と量子化の組み合わせは?
  • Q4_K_M, Q5_K_M, Q8_0 など量子化別の推奨は?
  • 用途別(コーディング / 日本語会話 / RAG / 画像生成補助)に最適なモデルは?

Q3. 2026年時点でローカルLLMのコスパ最前線はどこか?

  • 今後1〜2年の GPU価格・LLMモデルトレンドを踏まえると、今投資すべきか待つべきか?
  • AMDのROCm + Radeon RX 9000シリーズはOllamaで使えるか?コスパは?
  • 中古の H100 / A100 などのデータセンター向けGPUはコンシューマー用途で現実的か?

Q4. llama4(67GB)をまともな速度で動かす方法は?

  • 現在のPC構成でllama4を実用的な速度(> 5 tokens/sec)で動かせるか?
  • モデルをより小さい量子化にすれば改善できるか?(llama4の派生版はあるか?)
  • llama4はMoEアーキテクチャのため、通常のdenseモデルと推論コストが異なる。その特性を踏まえた最適な使い方は?

Q5. ローカルLLM環境の全体アーキテクチャをどう設計すべきか?

  • 用途別にモデルを使い分けるマルチモデル戦略の設計方法
  • RAG(Retrieval-Augmented Generation)との組み合わせ方
  • ローカルLLMとCloud LLM(Claude / Gemini)のハイブリッド活用戦略

5. 優先度別アクションプラン(仮)

優先度 アクション 概算コスト 期待効果
RAM 128GBへ増設(+64GB) 2〜4万円 CPU offloadモデルの安定動作
30B前後のQ4量子化モデルに絞り込み(モデル整理) 無料 VRAMに乗る最大性能を引き出す
Ollamaを最新版へアップデート(現0.17.7) 無料 パフォーマンス改善・新機能
GPU換装(RTX 5090等) 35〜50万円 32GB VRAM、70Bモデル全GPU乗せ
外部推論API活用(Groq等) 月額数百〜数千円 大型モデルをクラウドで補完

6. 質問事項まとめ(ディープリサーチ用)

  1. VRAM 16GBのRTX 5070 Tiで2026年現在、最もコスパの良いローカルLLM運用方法は何か?
  2. 30Bクラスのモデルを実用速度で動かすための最適な量子化と設定は?
  3. ローカルLLMの性能をハードウェア追加で改善するなら、GPU換装とRAM増設どちらが先か?
  4. llama4(67GB, MoE)を現構成でまともに使う方法、または代替モデルは?
  5. 2026年の最新モデルトレンドを踏まえ、今後1年でローカルLLM環境に投資すべき機材は何か?
  6. AMDのROCm / Radeon 9000シリーズはOllamaで実用になるか?NVIDIAとの比較は?

参考リンク(リサーチ時に参照)

  • Ollama公式: https://ollama.com/
  • Hugging Face GGUF量子化モデル: https://huggingface.co/
  • LLM Benchmark: https://lmsys.org/blog/2023-05-03-arena/
  • GPU購入ガイド(海外): https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/