コンテンツにスキップ

ローカルLLM vs クラウドモデル 比較調査レポート

📁 docs/it-learning/artifact/20260309_ローカルLLMvsクラウドモデル比較調査.md

調査日: 2026-03-09 環境: Windows 11 / RTX 5070 Ti (VRAM 16GB) / Ollama導入済み


目次

  1. インストール済みOllamaモデル一覧
  2. クラウドモデルの現行ラインナップ
  3. ベンチマーク比較
  4. Ollamaモデル ↔ クラウドモデル 相当表
  5. 性能ランク全体像
  6. 用途別おすすめ
  7. 音声文字起こし(ASR)モデル比較
  8. まとめ

1. インストール済みOllamaモデル一覧

モデル サイズ 用途
llama4 67GB 汎用(MoE、CPUオフロード必要)
qwen3:30b 18GB 汎用・日本語に強い
qwen3-coder:30b 18GB コーディング特化
gemma3:27b 17GB 汎用・マルチモーダル
gemma3:12b 8.1GB 軽量・マルチモーダル
gpt-oss:20b 13GB GPT-4o蒸留モデル
llama3.1:8b 4.9GB 軽量汎用(1世代前)
qwen3:1.7b 1.4GB 超軽量
qwen2.5-coder:1.5b 986MB コード補完向け
gemma3:270m 291MB テスト・学習用
nomic-embed-text 274MB テキスト埋め込み(検索用)

2. クラウドモデルの現行ラインナップ

Anthropic (Claude)

モデル 特徴
Claude Opus 4.6 最上位。推論・コーディング最強クラス
Claude Sonnet 4.6 コスパ最強。SWE-bench 79.6%
Claude Haiku 4.5 高速・低コスト

Google (Gemini)

モデル 特徴
Gemini 2.5 Pro 1Mトークンコンテキスト。長文分析に最適
Gemini 2.5 Flash 高速・高精度のバランス型
Gemini 2.0 Flash 前世代の高速モデル

OpenAI

モデル 特徴
o3 推論特化。ARC-AGI-2で77.1%、GPQA 94.3%
GPT-4o 汎用最上位
GPT-4o mini 軽量・低コスト

DeepSeek

モデル 特徴
DeepSeek V3.1 圧倒的コスパ($0.55/1M入力トークン)

3. ベンチマーク比較

クラウドモデル

モデル MMLU コーディング (LiveCodeBench) SWE-bench Verified 推論 (GPQA Diamond)
Claude Opus 4.6 トップ級 トップ級 80.8% 高い
Claude Sonnet 4.6 トップ級 トップ級 79.6% 高い
GPT-4o ~87-88 32.3 - -
o3 - - 77.2% 94.3%
Gemini 2.5 Pro 高い 34.5 63.8% -
Gemini 2.5 Flash - - 76.2% -
DeepSeek V3.1 高い 45.8 66% -

ローカルモデル(Ollama等で実行可能)

モデル パラメータ MMLU / MMLU-Pro コーディング 必要VRAM (Q4) 日本語
Llama 4 Maverick 17Bx128E (MoE) 85.5 LCB 43.4 100GB+ 中程度
Llama 4 Scout 17Bx16E (MoE) 79.6 LCB 32.8 ~24GB 中程度
Qwen 3 235B-A22B 235B (MoE) Pro 84.4 LCB 74.1 ~48GB 非常に良い
Qwen 3 32B 32B 83.3 / Pro 55.1 良好 ~20GB 非常に良い
Qwen 3 8B 8B 良好 良好 ~6GB 良い
Gemma 3 27B 27B Pro 67.5 良好 ~18GB 中程度
Gemma 3 12B 12B 中程度 中程度 ~8GB やや弱い
Phi-4 14B 84.8 良好 ~10GB 弱い
DeepSeek R1 671B (MoE) 高い LCB 65.9 400GB+ 良い
DeepSeek R1 蒸留32B 32B 良好 良好 ~20GB 良い

4. Ollamaモデル ↔ クラウドモデル 相当表

コーディング能力基準

Ollamaモデル サイズ 相当するクラウドモデル 備考
qwen3-coder:30b 18GB Gemini 2.0 Flash相当 ローカルコーディング最強枠。Claude Sonnetには届かない
qwen3:30b 18GB GPT-4o mini〜GPT-4o下位相当 汎用でもコーディングでもバランス良い
gemma3:27b 17GB Gemini 1.5 Flash相当 Google系、マルチモーダル対応
llama4 67GB Gemini 2.0 Flash〜2.5 Flash下位相当 VRAM 16GBだとCPUオフロードで遅い
gpt-oss:20b 13GB GPT-4o mini相当 GPT-4oの蒸留モデル
llama3.1:8b 4.9GB Gemini 1.5 Flash 8B相当 1世代前。Qwen3:8Bの方が優秀
qwen3:1.7b 1.4GB Gemini Nano相当 超軽量、簡単なタスクのみ
gemma3:12b 8.1GB Gemini 1.5 Flash相当(やや下) 画像理解可能だが性能は控えめ
qwen2.5-coder:1.5b 986MB コード補完ツール程度 GitHub Copilot的な補完向け
gemma3:270m 291MB 実用外 テスト・学習用途

日本語能力基準

Ollamaモデル 日本語レベル クラウド相当
qwen3:30b ⭐⭐⭐⭐ 非常に良い GPT-4o相当(日本語はQwenが強い)
qwen3-coder:30b ⭐⭐⭐⭐ 良い Gemini 2.0 Flash相当
gemma3:27b ⭐⭐⭐ 普通 Gemini 1.5 Flash相当
llama4 ⭐⭐ やや弱い GPT-4o mini以下
llama3.1:8b ⭐⭐ やや弱い 実用ギリギリ
qwen3:1.7b ⭐⭐ やや弱い Gemini Nano程度

5. 性能ランク全体像

【最上位】Claude Opus 4.6 / o3 / Gemini 2.5 Pro
  ↑ ローカルでは到達不可能
  |
【上位】Claude Sonnet 4.6 / GPT-4o / Gemini 2.5 Flash
  ↑ qwen3:30b, qwen3-coder:30b はここの7〜8割程度
  |
【中上位】GPT-4o mini / Gemini 2.0 Flash
  ≒ qwen3:30b, gemma3:27b, llama4(Scout)
  |
【中位】Gemini 1.5 Flash / Claude Haiku 4.5
  ≒ gemma3:12b, gpt-oss:20b, llama3.1:8b
  |
【下位】Gemini Nano / 軽量モデル
  ≒ qwen3:1.7b, gemma3:270m

6. 用途別おすすめ

コーディング

優先度 モデル 理由
1位 Claude Opus/Sonnet 4.6 (クラウド) SWE-bench最高、実務コーディング圧倒的
2位 Qwen 3 235B (ローカル) ローカル最強 (LCB 74.1)。ただしVRAM 48GB必要
3位 qwen3-coder:30b (ローカル) 16GB VRAMで動作、日常コーディングに十分

日本語タスク

優先度 モデル 理由
1位 Claude Opus/Sonnet (クラウド) 日本語の自然さ・正確さ最高レベル
2位 qwen3:30b (ローカル) ローカルで日本語最強
3位 gemma3:27b (ローカル) 140言語対応だがQwenに劣る
非推奨 Phi-4 / Llama 4 英語中心設計のため日本語が弱い

要約・長文分析

優先度 モデル 理由
1位 Gemini 2.5 Pro (クラウド) 1Mトークンコンテキスト
2位 qwen3:30b (ローカル) 日本語要約が安定、128Kコンテキスト

低VRAM環境(8GB以下)

モデル VRAM 特徴
Qwen 3 8B (Q4) ~6GB 日本語良好、万能型
Gemma 3 12B (Q4) ~8GB マルチモーダル対応
Phi-4-mini (3.8B) ~3GB コーディング特化、英語向け

7. 音声文字起こし(ASR)モデル比較

前提知識

  • 音声文字起こしはLLMとは別カテゴリ(ASRモデル)
  • Ollamaでは音声文字起こしモデルは動かせない(テキスト生成LLM専用)
  • 専用ツール(Faster-Whisper, WhisperX等)を別途使う

主要ローカルASRモデル

モデル パラメータ VRAM (FP16) 日本語精度 特徴
Whisper large-v3 1,550M ~10GB ⭐⭐⭐⭐⭐ 多言語最高精度。99言語対応
Whisper large-v3-turbo 809M ~6GB ⭐⭐⭐⭐ (差1-2%) large-v3の6倍高速版
Faster-Whisper large-v3 (INT8) 同上 ~3GB ⭐⭐⭐⭐⭐ C++実装。メモリ1/3で同精度
Kotoba-Whisper v2.x 蒸留版 ~3-5GB ⭐⭐⭐⭐⭐ 日本語特化。large-v3同等で6.3倍高速
ReazonSpeech v2 (INT8) - ~1-2GB ⭐⭐⭐⭐ CPUでも動作可。超軽量
WhisperX large-v3ベース ~5GB ⭐⭐⭐⭐⭐ 話者分離+タイムスタンプ付き
Nue ASR (rinna) HuBERT+GPT ~4-8GB ⭐⭐⭐⭐ ドメイン適応でCER 5.43%
Parakeet 1.1B (NVIDIA) 1,100M ~4-6GB ⭐⭐⭐ 25言語対応。超高速 (RTFx 2000+)
Moonshine 日本語版 数十M ~0.5GB ⭐⭐⭐ エッジ向け超軽量

Faster-Whisper サイズ別VRAM

モデル FP16 INT8
large-v3 ~4.7GB ~3.1GB
medium ~3GB ~2GB
small ~1.5GB ~1GB

クラウドASRサービスとの比較

サービス 精度 (英語WER) 価格 (/分)
OpenAI Whisper API ~3-5% $0.006
GPT-4o Transcribe sub-5% 上位価格帯
Deepgram Nova sub-5% $0.0043
Google Cloud STT ~4-5% $0.024
Azure Speech ~4-6% $0.017
AWS Transcribe ~4-6% $0.024

重要: OpenAI Whisper APIも内部的にはWhisper large-v3を使っているため、 Faster-Whisperでローカル実行すればほぼ同じ精度が出る。

RTX 5070 Ti (16GB) での文字起こし

結論: ほぼ全てのASRモデルが動作可能。推論用途なら16GBで十分。

モデル 動作 VRAM使用量
Faster-Whisper large-v3 (INT8) ✅ 余裕 ~3.1GB
Kotoba-Whisper v2.x ✅ 余裕 ~3-5GB
WhisperX (large-v3) ✅ 余裕 ~5GB
Whisper large-v3 (PyTorch FP16) ✅ 可 ~10GB
ReazonSpeech v2 ✅ 余裕 ~1-2GB

VRAM増強時のメリット

増強内容 できるようになること 必要性
24GB (RTX 5080等) large-v3のファインチューニング 専門用語の精度向上に有効
48GB (A6000等) フル精度学習、大規模バッチ処理 業務大量処理でなければ不要

おすすめ構成(日本語文字起こし)

目的 推奨モデル 理由
最高精度 Faster-Whisper large-v3 (INT8) VRAM 3GBで最高精度
速度+精度のバランス Kotoba-Whisper v2.x ★イチオシ 精度同等で6.3倍高速
会議録・インタビュー WhisperX + large-v3 話者分離+タイムスタンプ
超軽量・サブ用途 ReazonSpeech v2 (INT8) CPUでも動く

実用的なパイプライン

音声ファイル → Faster-Whisper / Kotoba-Whisper(文字起こし)
              Ollama qwen3:30b(要約・議事録整理)

8. まとめ

LLM(テキスト生成)

  • ローカルで1つだけ入れるなら: Qwen 3 32B(日本語・コーディング・汎用性のバランス最良)
  • クラウドで1つだけ使うなら: Claude Sonnet 4.6(コーディング最強+日本語の自然さ)
  • ベストプラクティス: 日常タスクはローカル(Qwen 3)、複雑なコーディングはクラウド(Claude)のハイブリッド運用

音声文字起こし(ASR)

  • 16GB VRAMで既にクラウドAPI同等の精度が出せる
  • イチオシ: Kotoba-Whisper v2.x(日本語特化、高速、高精度)
  • VRAMを増やすメリットはファインチューニング時のみ

ローカル vs クラウドの差(2026年3月時点)

観点 差の程度
日常Q&A・要約 ほぼ差なし
一般知識 (MMLU) 僅か (2-3%)
日本語品質 クラウドがやや上
複雑なコーディング クラウドが10-15%上
高度な推論 クラウドが大幅に上
音声文字起こし ほぼ差なし(同じモデルが使える)