Whisper 音声入力ツール マニュアル¶
ホットキーを押している間しゃべると、離したタイミングで自動的に文字起こしされ、カーソル位置に入力されます。
目次¶
1. システム概要¶
| 項目 | 内容 |
|---|---|
| スクリプト | scripts/whisper_voice_input.py |
| 動作OS | Windows 11 |
| GPU | NVIDIA GeForce RTX 5070 Ti(CUDA対応) |
| デフォルトホットキー | Ctrl + Shift + Space |
| デフォルトモデル | turbo(高速・高精度) |
| デフォルト言語 | 日本語(ja) |
2. アーキテクチャ¶
[ユーザー]
│
│ Ctrl+Shift+Space 押下
▼
[keyboard] ──────────────────────────────────────────────
│ on_press イベント検知
▼
[録音スレッド(sounddevice)]
│ マイク入力をキャプチャ(16kHz, float32)
│ audio_frames バッファに蓄積
│
│ ← キーを離す(on_release イベント)
│
▼
[numpy] audio_frames を結合 → 1次元配列に変換
│
▼
[Whisper(turbo モデル)] GPU推論(RTX 5070 Ti / CUDA)
│ テキスト出力(日本語)
│
├─▶ [pyperclip] クリップボードにコピー
│
└─▶ [pyautogui] Ctrl+V を送信
│
▼
カーソル位置に入力完了
アーキテクチャ図(draw.io): docs/whisper_voice_input_architecture.drawio
3. セットアップ¶
必要なライブラリ¶
# PyTorch(RTX 5070 Ti 対応 nightly)
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128
# Whisper
pip install openai-whisper
# その他
pip install sounddevice numpy keyboard pyperclip pyautogui
動作確認¶
import whisper
import torch
print("CUDA:", torch.cuda.is_available()) # True であること
print("GPU:", torch.cuda.get_device_name(0)) # RTX 5070 Ti
model = whisper.load_model("turbo", device="cuda") # エラーなくロードできること
4. 起動方法¶
管理者権限が必要です(keyboard ライブラリの制約)
起動すると以下のようなメッセージが表示されます:
Whisper音声入力ツール起動中...
モデル (turbo) をロード中...
モデルロード完了
使い方: [ctrl+shift+space] を押している間しゃべる → 離したら文字起こし開始
終了: Ctrl+C
--------------------------------------------------
5. 使い方¶
- 管理者権限 でターミナルを開き、スクリプトを起動
- 文字を入力したいアプリ(メモ帳、ブラウザ等)にカーソルを置く
Ctrl + Shift + Spaceを押しながらしゃべる- しゃべり終わったらキーを離す
- 自動で文字起こしされ、カーソル位置に入力される
コンソール出力例¶
6. 設定カスタマイズ¶
スクリプト冒頭の設定欄を編集します。
# ===== 設定 =====
HOTKEY = "ctrl+shift+space" # ホットキー
MODEL_SIZE = "turbo" # Whisperモデルサイズ
LANGUAGE = "ja" # 言語(None で自動検出)
SAMPLE_RATE = 16000 # サンプリングレート(変更不要)
AUTO_TYPE = True # True: カーソル位置に入力 / False: クリップボードのみ
# ================
ホットキーの変更例¶
7. モデル選択ガイド¶
RTX 5070 Ti(VRAM 17.1 GB)なので大きいモデルも使用可能。
| モデル | VRAM目安 | 速度 | 精度 | おすすめ用途 |
|---|---|---|---|---|
tiny | ~1 GB | 最速 | 低 | テスト用 |
base | ~1 GB | 速い | 普通 | 短い入力 |
small | ~2 GB | 普通 | 良い | 日常使い |
medium | ~5 GB | やや遅い | 高い | 専門用語あり |
turbo | ~6 GB | 速い | 高い | 推奨(バランス) |
large-v3 | ~10 GB | 遅い | 最高 | 高精度が必要な場合 |
8. トラブルシューティング¶
ホットキーが反応しない¶
- 管理者権限でターミナルを起動しているか確認
- 他のアプリが同じホットキーを使っていないか確認
文字起こし精度が低い¶
- モデルを大きくする(
turbo→large-v3) - マイクの音量・距離を調整
- 静かな環境で使用する
CUDA available: False になる¶
- PyTorchが nightly/cu128 版か確認:
- NVIDIAドライバーが最新か確認
入力が遅い / モデルロードが遅い¶
- 初回はモデルのダウンロードが走るため時間がかかります(turboは約1.5GB)
- 2回目以降はキャッシュから読み込まれます
- キャッシュ場所:
C:\Users\<ユーザー名>\.cache\whisper\
sounddevice エラー¶
- マイクがOSに認識されているか確認
- 別のマイクデバイスを試す: