ローカルLLM vs クラウドモデル 比較調査レポート
📁 docs/it-learning/artifact/20260309_ローカルLLMvsクラウドモデル比較調査.md
調査日: 2026-03-09 環境: Windows 11 / RTX 5070 Ti (VRAM 16GB) / Ollama導入済み
目次
- インストール済みOllamaモデル一覧
- クラウドモデルの現行ラインナップ
- ベンチマーク比較
- Ollamaモデル ↔ クラウドモデル 相当表
- 性能ランク全体像
- 用途別おすすめ
- 音声文字起こし(ASR)モデル比較
- まとめ
1. インストール済みOllamaモデル一覧
| モデル | サイズ | 用途 |
| llama4 | 67GB | 汎用(MoE、CPUオフロード必要) |
| qwen3:30b | 18GB | 汎用・日本語に強い |
| qwen3-coder:30b | 18GB | コーディング特化 |
| gemma3:27b | 17GB | 汎用・マルチモーダル |
| gemma3:12b | 8.1GB | 軽量・マルチモーダル |
| gpt-oss:20b | 13GB | GPT-4o蒸留モデル |
| llama3.1:8b | 4.9GB | 軽量汎用(1世代前) |
| qwen3:1.7b | 1.4GB | 超軽量 |
| qwen2.5-coder:1.5b | 986MB | コード補完向け |
| gemma3:270m | 291MB | テスト・学習用 |
| nomic-embed-text | 274MB | テキスト埋め込み(検索用) |
2. クラウドモデルの現行ラインナップ
Anthropic (Claude)
| モデル | 特徴 |
| Claude Opus 4.6 | 最上位。推論・コーディング最強クラス |
| Claude Sonnet 4.6 | コスパ最強。SWE-bench 79.6% |
| Claude Haiku 4.5 | 高速・低コスト |
Google (Gemini)
| モデル | 特徴 |
| Gemini 2.5 Pro | 1Mトークンコンテキスト。長文分析に最適 |
| Gemini 2.5 Flash | 高速・高精度のバランス型 |
| Gemini 2.0 Flash | 前世代の高速モデル |
OpenAI
| モデル | 特徴 |
| o3 | 推論特化。ARC-AGI-2で77.1%、GPQA 94.3% |
| GPT-4o | 汎用最上位 |
| GPT-4o mini | 軽量・低コスト |
DeepSeek
| モデル | 特徴 |
| DeepSeek V3.1 | 圧倒的コスパ($0.55/1M入力トークン) |
3. ベンチマーク比較
クラウドモデル
| モデル | MMLU | コーディング (LiveCodeBench) | SWE-bench Verified | 推論 (GPQA Diamond) |
| Claude Opus 4.6 | トップ級 | トップ級 | 80.8% | 高い |
| Claude Sonnet 4.6 | トップ級 | トップ級 | 79.6% | 高い |
| GPT-4o | ~87-88 | 32.3 | - | - |
| o3 | - | - | 77.2% | 94.3% |
| Gemini 2.5 Pro | 高い | 34.5 | 63.8% | - |
| Gemini 2.5 Flash | - | - | 76.2% | - |
| DeepSeek V3.1 | 高い | 45.8 | 66% | - |
ローカルモデル(Ollama等で実行可能)
| モデル | パラメータ | MMLU / MMLU-Pro | コーディング | 必要VRAM (Q4) | 日本語 |
| Llama 4 Maverick | 17Bx128E (MoE) | 85.5 | LCB 43.4 | 100GB+ | 中程度 |
| Llama 4 Scout | 17Bx16E (MoE) | 79.6 | LCB 32.8 | ~24GB | 中程度 |
| Qwen 3 235B-A22B | 235B (MoE) | Pro 84.4 | LCB 74.1 | ~48GB | 非常に良い |
| Qwen 3 32B | 32B | 83.3 / Pro 55.1 | 良好 | ~20GB | 非常に良い |
| Qwen 3 8B | 8B | 良好 | 良好 | ~6GB | 良い |
| Gemma 3 27B | 27B | Pro 67.5 | 良好 | ~18GB | 中程度 |
| Gemma 3 12B | 12B | 中程度 | 中程度 | ~8GB | やや弱い |
| Phi-4 | 14B | 84.8 | 良好 | ~10GB | 弱い |
| DeepSeek R1 | 671B (MoE) | 高い | LCB 65.9 | 400GB+ | 良い |
| DeepSeek R1 蒸留32B | 32B | 良好 | 良好 | ~20GB | 良い |
4. Ollamaモデル ↔ クラウドモデル 相当表
コーディング能力基準
| Ollamaモデル | サイズ | 相当するクラウドモデル | 備考 |
| qwen3-coder:30b | 18GB | Gemini 2.0 Flash相当 | ローカルコーディング最強枠。Claude Sonnetには届かない |
| qwen3:30b | 18GB | GPT-4o mini〜GPT-4o下位相当 | 汎用でもコーディングでもバランス良い |
| gemma3:27b | 17GB | Gemini 1.5 Flash相当 | Google系、マルチモーダル対応 |
| llama4 | 67GB | Gemini 2.0 Flash〜2.5 Flash下位相当 | VRAM 16GBだとCPUオフロードで遅い |
| gpt-oss:20b | 13GB | GPT-4o mini相当 | GPT-4oの蒸留モデル |
| llama3.1:8b | 4.9GB | Gemini 1.5 Flash 8B相当 | 1世代前。Qwen3:8Bの方が優秀 |
| qwen3:1.7b | 1.4GB | Gemini Nano相当 | 超軽量、簡単なタスクのみ |
| gemma3:12b | 8.1GB | Gemini 1.5 Flash相当(やや下) | 画像理解可能だが性能は控えめ |
| qwen2.5-coder:1.5b | 986MB | コード補完ツール程度 | GitHub Copilot的な補完向け |
| gemma3:270m | 291MB | 実用外 | テスト・学習用途 |
日本語能力基準
| Ollamaモデル | 日本語レベル | クラウド相当 |
| qwen3:30b | ⭐⭐⭐⭐ 非常に良い | GPT-4o相当(日本語はQwenが強い) |
| qwen3-coder:30b | ⭐⭐⭐⭐ 良い | Gemini 2.0 Flash相当 |
| gemma3:27b | ⭐⭐⭐ 普通 | Gemini 1.5 Flash相当 |
| llama4 | ⭐⭐ やや弱い | GPT-4o mini以下 |
| llama3.1:8b | ⭐⭐ やや弱い | 実用ギリギリ |
| qwen3:1.7b | ⭐⭐ やや弱い | Gemini Nano程度 |
5. 性能ランク全体像
【最上位】Claude Opus 4.6 / o3 / Gemini 2.5 Pro
↑ ローカルでは到達不可能
|
【上位】Claude Sonnet 4.6 / GPT-4o / Gemini 2.5 Flash
↑ qwen3:30b, qwen3-coder:30b はここの7〜8割程度
|
【中上位】GPT-4o mini / Gemini 2.0 Flash
≒ qwen3:30b, gemma3:27b, llama4(Scout)
|
【中位】Gemini 1.5 Flash / Claude Haiku 4.5
≒ gemma3:12b, gpt-oss:20b, llama3.1:8b
|
【下位】Gemini Nano / 軽量モデル
≒ qwen3:1.7b, gemma3:270m
6. 用途別おすすめ
コーディング
| 優先度 | モデル | 理由 |
| 1位 | Claude Opus/Sonnet 4.6 (クラウド) | SWE-bench最高、実務コーディング圧倒的 |
| 2位 | Qwen 3 235B (ローカル) | ローカル最強 (LCB 74.1)。ただしVRAM 48GB必要 |
| 3位 | qwen3-coder:30b (ローカル) | 16GB VRAMで動作、日常コーディングに十分 |
日本語タスク
| 優先度 | モデル | 理由 |
| 1位 | Claude Opus/Sonnet (クラウド) | 日本語の自然さ・正確さ最高レベル |
| 2位 | qwen3:30b (ローカル) | ローカルで日本語最強 |
| 3位 | gemma3:27b (ローカル) | 140言語対応だがQwenに劣る |
| 非推奨 | Phi-4 / Llama 4 | 英語中心設計のため日本語が弱い |
要約・長文分析
| 優先度 | モデル | 理由 |
| 1位 | Gemini 2.5 Pro (クラウド) | 1Mトークンコンテキスト |
| 2位 | qwen3:30b (ローカル) | 日本語要約が安定、128Kコンテキスト |
低VRAM環境(8GB以下)
| モデル | VRAM | 特徴 |
| Qwen 3 8B (Q4) | ~6GB | 日本語良好、万能型 |
| Gemma 3 12B (Q4) | ~8GB | マルチモーダル対応 |
| Phi-4-mini (3.8B) | ~3GB | コーディング特化、英語向け |
7. 音声文字起こし(ASR)モデル比較
前提知識
- 音声文字起こしはLLMとは別カテゴリ(ASRモデル)
- Ollamaでは音声文字起こしモデルは動かせない(テキスト生成LLM専用)
- 専用ツール(Faster-Whisper, WhisperX等)を別途使う
主要ローカルASRモデル
| モデル | パラメータ | VRAM (FP16) | 日本語精度 | 特徴 |
| Whisper large-v3 | 1,550M | ~10GB | ⭐⭐⭐⭐⭐ | 多言語最高精度。99言語対応 |
| Whisper large-v3-turbo | 809M | ~6GB | ⭐⭐⭐⭐ (差1-2%) | large-v3の6倍高速版 |
| Faster-Whisper large-v3 (INT8) | 同上 | ~3GB | ⭐⭐⭐⭐⭐ | C++実装。メモリ1/3で同精度 |
| Kotoba-Whisper v2.x | 蒸留版 | ~3-5GB | ⭐⭐⭐⭐⭐ | 日本語特化。large-v3同等で6.3倍高速 |
| ReazonSpeech v2 (INT8) | - | ~1-2GB | ⭐⭐⭐⭐ | CPUでも動作可。超軽量 |
| WhisperX | large-v3ベース | ~5GB | ⭐⭐⭐⭐⭐ | 話者分離+タイムスタンプ付き |
| Nue ASR (rinna) | HuBERT+GPT | ~4-8GB | ⭐⭐⭐⭐ | ドメイン適応でCER 5.43% |
| Parakeet 1.1B (NVIDIA) | 1,100M | ~4-6GB | ⭐⭐⭐ | 25言語対応。超高速 (RTFx 2000+) |
| Moonshine 日本語版 | 数十M | ~0.5GB | ⭐⭐⭐ | エッジ向け超軽量 |
Faster-Whisper サイズ別VRAM
| モデル | FP16 | INT8 |
| large-v3 | ~4.7GB | ~3.1GB |
| medium | ~3GB | ~2GB |
| small | ~1.5GB | ~1GB |
クラウドASRサービスとの比較
| サービス | 精度 (英語WER) | 価格 (/分) |
| OpenAI Whisper API | ~3-5% | $0.006 |
| GPT-4o Transcribe | sub-5% | 上位価格帯 |
| Deepgram Nova | sub-5% | $0.0043 |
| Google Cloud STT | ~4-5% | $0.024 |
| Azure Speech | ~4-6% | $0.017 |
| AWS Transcribe | ~4-6% | $0.024 |
重要: OpenAI Whisper APIも内部的にはWhisper large-v3を使っているため、 Faster-Whisperでローカル実行すればほぼ同じ精度が出る。
RTX 5070 Ti (16GB) での文字起こし
結論: ほぼ全てのASRモデルが動作可能。推論用途なら16GBで十分。
| モデル | 動作 | VRAM使用量 |
| Faster-Whisper large-v3 (INT8) | ✅ 余裕 | ~3.1GB |
| Kotoba-Whisper v2.x | ✅ 余裕 | ~3-5GB |
| WhisperX (large-v3) | ✅ 余裕 | ~5GB |
| Whisper large-v3 (PyTorch FP16) | ✅ 可 | ~10GB |
| ReazonSpeech v2 | ✅ 余裕 | ~1-2GB |
VRAM増強時のメリット
| 増強内容 | できるようになること | 必要性 |
| 24GB (RTX 5080等) | large-v3のファインチューニング | 専門用語の精度向上に有効 |
| 48GB (A6000等) | フル精度学習、大規模バッチ処理 | 業務大量処理でなければ不要 |
おすすめ構成(日本語文字起こし)
| 目的 | 推奨モデル | 理由 |
| 最高精度 | Faster-Whisper large-v3 (INT8) | VRAM 3GBで最高精度 |
| 速度+精度のバランス | Kotoba-Whisper v2.x ★イチオシ | 精度同等で6.3倍高速 |
| 会議録・インタビュー | WhisperX + large-v3 | 話者分離+タイムスタンプ |
| 超軽量・サブ用途 | ReazonSpeech v2 (INT8) | CPUでも動く |
実用的なパイプライン
音声ファイル → Faster-Whisper / Kotoba-Whisper(文字起こし)
↓
Ollama qwen3:30b(要約・議事録整理)
8. まとめ
LLM(テキスト生成)
- ローカルで1つだけ入れるなら: Qwen 3 32B(日本語・コーディング・汎用性のバランス最良)
- クラウドで1つだけ使うなら: Claude Sonnet 4.6(コーディング最強+日本語の自然さ)
- ベストプラクティス: 日常タスクはローカル(Qwen 3)、複雑なコーディングはクラウド(Claude)のハイブリッド運用
音声文字起こし(ASR)
- 16GB VRAMで既にクラウドAPI同等の精度が出せる
- イチオシ: Kotoba-Whisper v2.x(日本語特化、高速、高精度)
- VRAMを増やすメリットはファインチューニング時のみ
ローカル vs クラウドの差(2026年3月時点)
| 観点 | 差の程度 |
| 日常Q&A・要約 | ほぼ差なし |
| 一般知識 (MMLU) | 僅か (2-3%) |
| 日本語品質 | クラウドがやや上 |
| 複雑なコーディング | クラウドが10-15%上 |
| 高度な推論 | クラウドが大幅に上 |
| 音声文字起こし | ほぼ差なし(同じモデルが使える) |