コンテンツにスキップ

ローカルLLM増強プラン相談¶

📁 docs/dev-environment/artifact/wip/20260315_ローカルLLM増強プラン相談.md

作成日: 2026-03-15 目的: 現在のPC構成をベースに、ローカルLLM環境をどう強化すべきかディープリサーチで相談するための資料

1. 現在のPC構成（スペック一覧）¶

カテゴリ	スペック
OS	Windows 11 Pro 64-bit (Build 26200)
CPU	Intel Core Ultra 7 265K（Arrow Lake）20コア/20スレッド、最大3.9GHz
RAM	64GB DDR5-5600（32GB × 2枚）
GPU	NVIDIA GeForce RTX 5070 Ti（Blackwell, sm_120）VRAM 16GB、Compute Capability 12.0
ドライバ	NVIDIA 581.29
ストレージ1	WD Blue SN570 1TB NVMe
ストレージ2	WDC WDS500G2B0C 500GB NVMe
ストレージ3	Predator SSD GM7 2TB NVMe
ストレージ合計	約3.5TB（NVMe × 3本）

2. 現在のローカルLLM環境¶

Ollamaバージョン: 0.17.7

インストール済みモデル一覧¶

モデル名	サイズ	用途・特徴
llama4:latest	67GB	Meta Llama 4（MoE系、巨大）
gemma3:27b	17GB	Google Gemma 3 27Bパラメータ
qwen3:30b	18GB	Alibaba Qwen3 30B
qwen3-coder:30b	18GB	Qwen3コーディング特化
gpt-oss:20b	13GB	Microsoft Phi系 20B
gemma3:12b	8.1GB	Gemma 3 12B
llama3.1:8b	4.9GB	Meta Llama 3.1 8B
qwen3:1.7b	1.4GB	軽量モデル
qwen2.5-coder:1.5b-base	986MB	軽量コーディング
gemma3:270m	291MB	超軽量（テスト用）
nomic-embed-text	274MB	Embeddingモデル

モデル合計容量: 約149GB（3.5TB中の約4%）

3. 現状分析・ボトルネック¶

VRAMの制約（最大の課題）¶

VRAM 16GBでは、以下のモデルがGPU単独では乗り切らない：
llama4:latest（67GB） → システムRAM＋CPU offload → 非常に低速
gemma3:27b（17GB）、qwen3:30b（18GB）→ 一部CPU offload → やや低速
VRAMに完全に乗るのは事実上 gemma3:12b（8GB量子化）以下
Q4量子化で VRAM16GBに乗るのは最大約30Bモデルまで（ギリギリ）

CPUとRAMは余裕あり¶

RAM 64GB DDR5-5600 → CPU offloadモデルも一定速度で動作可能
CPU 20コア → CPU推論も比較的高速

ストレージは問題なし¶

3.5TB NVMeで大型モデルの保管・スワップは余裕

4. 相談・検討したい課題¶

Q1. VRAMを増やすべきか？どの方法が費用対効果が高いか？¶

選択肢A: RTX 5080（VRAM 16GB）への換装 - VRAM容量は変わらず（16GB）だが、演算性能が向上 - コスト：約15〜20万円

選択肢B: RTX 5080 Super / RTX 5090 への換装 - 5090はVRAM 32GB → 30Bモデルを余裕でGPU全乗せ可能 - コスト：5090は約35〜50万円（高価）

選択肢C: 複数GPU構成（NVLink/CUDA P2P） - 同種GPU 2枚でVRAMを実質合算 - RTX世代はNVLink非対応が多く、Ollamaでの複数GPU活用は現時点で限定的

選択肢D: RAM増設（64GB→128GB） - CPU offloadの速度は若干改善 - 費用は安い（DDR5-5600 32GB×2 追加で2〜4万円程度） - 根本的なVRAM不足は解消しない

Q2. 現在のハードウェアで最も効率よく動かせるモデルサイズは？¶

VRAM 16GBに最適なパラメータ数と量子化の組み合わせは？
Q4_K_M, Q5_K_M, Q8_0 など量子化別の推奨は？
用途別（コーディング / 日本語会話 / RAG / 画像生成補助）に最適なモデルは？

Q3. 2026年時点でローカルLLMのコスパ最前線はどこか？¶

今後1〜2年の GPU価格・LLMモデルトレンドを踏まえると、今投資すべきか待つべきか？
AMDのROCm + Radeon RX 9000シリーズはOllamaで使えるか？コスパは？
中古の H100 / A100 などのデータセンター向けGPUはコンシューマー用途で現実的か？

Q4. llama4（67GB）をまともな速度で動かす方法は？¶

現在のPC構成でllama4を実用的な速度（> 5 tokens/sec）で動かせるか？
モデルをより小さい量子化にすれば改善できるか？（llama4の派生版はあるか？）
llama4はMoEアーキテクチャのため、通常のdenseモデルと推論コストが異なる。その特性を踏まえた最適な使い方は？

Q5. ローカルLLM環境の全体アーキテクチャをどう設計すべきか？¶

用途別にモデルを使い分けるマルチモデル戦略の設計方法
RAG（Retrieval-Augmented Generation）との組み合わせ方
ローカルLLMとCloud LLM（Claude / Gemini）のハイブリッド活用戦略

5. 優先度別アクションプラン（仮）¶

優先度	アクション	概算コスト	期待効果
高	RAM 128GBへ増設（+64GB）	2〜4万円	CPU offloadモデルの安定動作
中	30B前後のQ4量子化モデルに絞り込み（モデル整理）	無料	VRAMに乗る最大性能を引き出す
中	Ollamaを最新版へアップデート（現0.17.7）	無料	パフォーマンス改善・新機能
低	GPU換装（RTX 5090等）	35〜50万円	32GB VRAM、70Bモデル全GPU乗せ
低	外部推論API活用（Groq等）	月額数百〜数千円	大型モデルをクラウドで補完

6. 質問事項まとめ（ディープリサーチ用）¶

VRAM 16GBのRTX 5070 Tiで2026年現在、最もコスパの良いローカルLLM運用方法は何か？
30Bクラスのモデルを実用速度で動かすための最適な量子化と設定は？
ローカルLLMの性能をハードウェア追加で改善するなら、GPU換装とRAM増設どちらが先か？
llama4（67GB, MoE）を現構成でまともに使う方法、または代替モデルは？
2026年の最新モデルトレンドを踏まえ、今後1年でローカルLLM環境に投資すべき機材は何か？
AMDのROCm / Radeon 9000シリーズはOllamaで実用になるか？NVIDIAとの比較は？

参考リンク（リサーチ時に参照）¶

Ollama公式: https://ollama.com/
Hugging Face GGUF量子化モデル: https://huggingface.co/
LLM Benchmark: https://lmsys.org/blog/2023-05-03-arena/
GPU購入ガイド（海外）: https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/