ローカルLLM vs クラウドモデル比較調査レポート¶

📁 docs/it-learning/artifact/20260309_ローカルLLMvsクラウドモデル比較調査.md

調査日: 2026-03-09 環境: Windows 11 / RTX 5070 Ti (VRAM 16GB) / Ollama導入済み

目次¶

インストール済みOllamaモデル一覧
クラウドモデルの現行ラインナップ
ベンチマーク比較
Ollamaモデル ↔ クラウドモデル相当表
性能ランク全体像
用途別おすすめ
音声文字起こし（ASR）モデル比較
まとめ

1. インストール済みOllamaモデル一覧¶

モデル	サイズ	用途
llama4	67GB	汎用（MoE、CPUオフロード必要）
qwen3:30b	18GB	汎用・日本語に強い
qwen3-coder:30b	18GB	コーディング特化
gemma3:27b	17GB	汎用・マルチモーダル
gemma3:12b	8.1GB	軽量・マルチモーダル
gpt-oss:20b	13GB	GPT-4o蒸留モデル
llama3.1:8b	4.9GB	軽量汎用（1世代前）
qwen3:1.7b	1.4GB	超軽量
qwen2.5-coder:1.5b	986MB	コード補完向け
gemma3:270m	291MB	テスト・学習用
nomic-embed-text	274MB	テキスト埋め込み（検索用）

2. クラウドモデルの現行ラインナップ¶

Anthropic (Claude)¶

モデル	特徴
Claude Opus 4.6	最上位。推論・コーディング最強クラス
Claude Sonnet 4.6	コスパ最強。SWE-bench 79.6%
Claude Haiku 4.5	高速・低コスト

Google (Gemini)¶

モデル	特徴
Gemini 2.5 Pro	1Mトークンコンテキスト。長文分析に最適
Gemini 2.5 Flash	高速・高精度のバランス型
Gemini 2.0 Flash	前世代の高速モデル

OpenAI¶

モデル	特徴
o3	推論特化。ARC-AGI-2で77.1%、GPQA 94.3%
GPT-4o	汎用最上位
GPT-4o mini	軽量・低コスト

DeepSeek¶

モデル	特徴
DeepSeek V3.1	圧倒的コスパ（$0.55/1M入力トークン）

3. ベンチマーク比較¶

クラウドモデル¶

モデル	MMLU	コーディング (LiveCodeBench)	SWE-bench Verified	推論 (GPQA Diamond)
Claude Opus 4.6	トップ級	トップ級	80.8%	高い
Claude Sonnet 4.6	トップ級	トップ級	79.6%	高い
GPT-4o	~87-88	32.3	-	-
o3	-	-	77.2%	94.3%
Gemini 2.5 Pro	高い	34.5	63.8%	-
Gemini 2.5 Flash	-	-	76.2%	-
DeepSeek V3.1	高い	45.8	66%	-

ローカルモデル（Ollama等で実行可能）¶

モデル	パラメータ	MMLU / MMLU-Pro	コーディング	必要VRAM (Q4)	日本語
Llama 4 Maverick	17Bx128E (MoE)	85.5	LCB 43.4	100GB+	中程度
Llama 4 Scout	17Bx16E (MoE)	79.6	LCB 32.8	~24GB	中程度
Qwen 3 235B-A22B	235B (MoE)	Pro 84.4	LCB 74.1	~48GB	非常に良い
Qwen 3 32B	32B	83.3 / Pro 55.1	良好	~20GB	非常に良い
Qwen 3 8B	8B	良好	良好	~6GB	良い
Gemma 3 27B	27B	Pro 67.5	良好	~18GB	中程度
Gemma 3 12B	12B	中程度	中程度	~8GB	やや弱い
Phi-4	14B	84.8	良好	~10GB	弱い
DeepSeek R1	671B (MoE)	高い	LCB 65.9	400GB+	良い
DeepSeek R1 蒸留32B	32B	良好	良好	~20GB	良い

4. Ollamaモデル ↔ クラウドモデル相当表¶

コーディング能力基準¶

Ollamaモデル	サイズ	相当するクラウドモデル	備考
qwen3-coder:30b	18GB	Gemini 2.0 Flash相当	ローカルコーディング最強枠。Claude Sonnetには届かない
qwen3:30b	18GB	GPT-4o mini〜GPT-4o下位相当	汎用でもコーディングでもバランス良い
gemma3:27b	17GB	Gemini 1.5 Flash相当	Google系、マルチモーダル対応
llama4	67GB	Gemini 2.0 Flash〜2.5 Flash下位相当	VRAM 16GBだとCPUオフロードで遅い
gpt-oss:20b	13GB	GPT-4o mini相当	GPT-4oの蒸留モデル
llama3.1:8b	4.9GB	Gemini 1.5 Flash 8B相当	1世代前。Qwen3:8Bの方が優秀
qwen3:1.7b	1.4GB	Gemini Nano相当	超軽量、簡単なタスクのみ
gemma3:12b	8.1GB	Gemini 1.5 Flash相当（やや下）	画像理解可能だが性能は控えめ
qwen2.5-coder:1.5b	986MB	コード補完ツール程度	GitHub Copilot的な補完向け
gemma3:270m	291MB	実用外	テスト・学習用途

日本語能力基準¶

Ollamaモデル	日本語レベル	クラウド相当
qwen3:30b	⭐⭐⭐⭐ 非常に良い	GPT-4o相当（日本語はQwenが強い）
qwen3-coder:30b	⭐⭐⭐⭐ 良い	Gemini 2.0 Flash相当
gemma3:27b	⭐⭐⭐ 普通	Gemini 1.5 Flash相当
llama4	⭐⭐ やや弱い	GPT-4o mini以下
llama3.1:8b	⭐⭐ やや弱い	実用ギリギリ
qwen3:1.7b	⭐⭐ やや弱い	Gemini Nano程度

5. 性能ランク全体像¶

【最上位】Claude Opus 4.6 / o3 / Gemini 2.5 Pro
  ↑ ローカルでは到達不可能
  |
【上位】Claude Sonnet 4.6 / GPT-4o / Gemini 2.5 Flash
  ↑ qwen3:30b, qwen3-coder:30b はここの7〜8割程度
  |
【中上位】GPT-4o mini / Gemini 2.0 Flash
  ≒ qwen3:30b, gemma3:27b, llama4(Scout)
  |
【中位】Gemini 1.5 Flash / Claude Haiku 4.5
  ≒ gemma3:12b, gpt-oss:20b, llama3.1:8b
  |
【下位】Gemini Nano / 軽量モデル
  ≒ qwen3:1.7b, gemma3:270m

6. 用途別おすすめ¶

コーディング¶

優先度	モデル	理由
1位	Claude Opus/Sonnet 4.6 (クラウド)	SWE-bench最高、実務コーディング圧倒的
2位	Qwen 3 235B (ローカル)	ローカル最強 (LCB 74.1)。ただしVRAM 48GB必要
3位	qwen3-coder:30b (ローカル)	16GB VRAMで動作、日常コーディングに十分

日本語タスク¶

優先度	モデル	理由
1位	Claude Opus/Sonnet (クラウド)	日本語の自然さ・正確さ最高レベル
2位	qwen3:30b (ローカル)	ローカルで日本語最強
3位	gemma3:27b (ローカル)	140言語対応だがQwenに劣る
非推奨	Phi-4 / Llama 4	英語中心設計のため日本語が弱い

要約・長文分析¶

優先度	モデル	理由
1位	Gemini 2.5 Pro (クラウド)	1Mトークンコンテキスト
2位	qwen3:30b (ローカル)	日本語要約が安定、128Kコンテキスト

低VRAM環境（8GB以下）¶

モデル	VRAM	特徴
Qwen 3 8B (Q4)	~6GB	日本語良好、万能型
Gemma 3 12B (Q4)	~8GB	マルチモーダル対応
Phi-4-mini (3.8B)	~3GB	コーディング特化、英語向け

7. 音声文字起こし（ASR）モデル比較¶

前提知識¶

音声文字起こしはLLMとは別カテゴリ（ASRモデル）
Ollamaでは音声文字起こしモデルは動かせない（テキスト生成LLM専用）
専用ツール（Faster-Whisper, WhisperX等）を別途使う

主要ローカルASRモデル¶

モデル	パラメータ	VRAM (FP16)	日本語精度	特徴
Whisper large-v3	1,550M	~10GB	⭐⭐⭐⭐⭐	多言語最高精度。99言語対応
Whisper large-v3-turbo	809M	~6GB	⭐⭐⭐⭐ (差1-2%)	large-v3の6倍高速版
Faster-Whisper large-v3 (INT8)	同上	~3GB	⭐⭐⭐⭐⭐	C++実装。メモリ1/3で同精度
Kotoba-Whisper v2.x	蒸留版	~3-5GB	⭐⭐⭐⭐⭐	日本語特化。large-v3同等で6.3倍高速
ReazonSpeech v2 (INT8)	-	~1-2GB	⭐⭐⭐⭐	CPUでも動作可。超軽量
WhisperX	large-v3ベース	~5GB	⭐⭐⭐⭐⭐	話者分離+タイムスタンプ付き
Nue ASR (rinna)	HuBERT+GPT	~4-8GB	⭐⭐⭐⭐	ドメイン適応でCER 5.43%
Parakeet 1.1B (NVIDIA)	1,100M	~4-6GB	⭐⭐⭐	25言語対応。超高速 (RTFx 2000+)
Moonshine 日本語版	数十M	~0.5GB	⭐⭐⭐	エッジ向け超軽量

Faster-Whisper サイズ別VRAM¶

モデル	FP16	INT8
large-v3	~4.7GB	~3.1GB
medium	~3GB	~2GB
small	~1.5GB	~1GB

クラウドASRサービスとの比較¶

サービス	精度 (英語WER)	価格 (/分)
OpenAI Whisper API	~3-5%	$0.006
GPT-4o Transcribe	sub-5%	上位価格帯
Deepgram Nova	sub-5%	$0.0043
Google Cloud STT	~4-5%	$0.024
Azure Speech	~4-6%	$0.017
AWS Transcribe	~4-6%	$0.024

重要: OpenAI Whisper APIも内部的にはWhisper large-v3を使っているため、 Faster-Whisperでローカル実行すればほぼ同じ精度が出る。

RTX 5070 Ti (16GB) での文字起こし¶

結論: ほぼ全てのASRモデルが動作可能。推論用途なら16GBで十分。

モデル	動作	VRAM使用量
Faster-Whisper large-v3 (INT8)	✅ 余裕	~3.1GB
Kotoba-Whisper v2.x	✅ 余裕	~3-5GB
WhisperX (large-v3)	✅ 余裕	~5GB
Whisper large-v3 (PyTorch FP16)	✅ 可	~10GB
ReazonSpeech v2	✅ 余裕	~1-2GB

VRAM増強時のメリット¶

増強内容	できるようになること	必要性
24GB (RTX 5080等)	large-v3のファインチューニング	専門用語の精度向上に有効
48GB (A6000等)	フル精度学習、大規模バッチ処理	業務大量処理でなければ不要

実用的なパイプライン¶

音声ファイル → Faster-Whisper / Kotoba-Whisper（文字起こし）
                    ↓
              Ollama qwen3:30b（要約・議事録整理）

8. まとめ¶

LLM（テキスト生成）¶

ローカルで1つだけ入れるなら: Qwen 3 32B（日本語・コーディング・汎用性のバランス最良）
クラウドで1つだけ使うなら: Claude Sonnet 4.6（コーディング最強+日本語の自然さ）
ベストプラクティス: 日常タスクはローカル（Qwen 3）、複雑なコーディングはクラウド（Claude）のハイブリッド運用

音声文字起こし（ASR）¶

16GB VRAMで既にクラウドAPI同等の精度が出せる
イチオシ: Kotoba-Whisper v2.x（日本語特化、高速、高精度）
VRAMを増やすメリットはファインチューニング時のみ

ローカル vs クラウドの差（2026年3月時点）¶

観点	差の程度
日常Q&A・要約	ほぼ差なし
一般知識 (MMLU)	僅か (2-3%)
日本語品質	クラウドがやや上
複雑なコーディング	クラウドが10-15%上
高度な推論	クラウドが大幅に上
音声文字起こし	ほぼ差なし（同じモデルが使える）

目的	推奨モデル	理由
最高精度	Faster-Whisper large-v3 (INT8)	VRAM 3GBで最高精度
速度+精度のバランス	Kotoba-Whisper v2.x ★イチオシ	精度同等で6.3倍高速
会議録・インタビュー	WhisperX + large-v3	話者分離+タイムスタンプ
超軽量・サブ用途	ReazonSpeech v2 (INT8)	CPUでも動く

ローカルLLM vs クラウドモデル 比較調査レポート¶

目次¶

1. インストール済みOllamaモデル一覧¶

2. クラウドモデルの現行ラインナップ¶

Anthropic (Claude)¶

Google (Gemini)¶

OpenAI¶

DeepSeek¶

3. ベンチマーク比較¶

クラウドモデル¶

ローカルモデル（Ollama等で実行可能）¶

4. Ollamaモデル ↔ クラウドモデル 相当表¶

コーディング能力基準¶

日本語能力基準¶

5. 性能ランク全体像¶

6. 用途別おすすめ¶

コーディング¶

日本語タスク¶

要約・長文分析¶

低VRAM環境（8GB以下）¶

7. 音声文字起こし（ASR）モデル比較¶

前提知識¶

主要ローカルASRモデル¶

Faster-Whisper サイズ別VRAM¶

クラウドASRサービスとの比較¶

RTX 5070 Ti (16GB) での文字起こし¶

VRAM増強時のメリット¶

おすすめ構成（日本語文字起こし）¶

実用的なパイプライン¶

8. まとめ¶

LLM（テキスト生成）¶

音声文字起こし（ASR）¶

ローカル vs クラウドの差（2026年3月時点）¶

ローカルLLM vs クラウドモデル比較調査レポート¶

4. Ollamaモデル ↔ クラウドモデル相当表¶