コンテンツにスキップ

Whisper 音声入力ツール マニュアル

ホットキーを押している間しゃべると、離したタイミングで自動的に文字起こしされ、カーソル位置に入力されます。


目次

  1. システム概要
  2. アーキテクチャ
  3. セットアップ
  4. 起動方法
  5. 使い方
  6. 設定カスタマイズ
  7. モデル選択ガイド
  8. トラブルシューティング

1. システム概要

項目 内容
スクリプト scripts/whisper_voice_input.py
動作OS Windows 11
GPU NVIDIA GeForce RTX 5070 Ti(CUDA対応)
デフォルトホットキー Ctrl + Shift + Space
デフォルトモデル turbo(高速・高精度)
デフォルト言語 日本語(ja

2. アーキテクチャ

[ユーザー]
    │ Ctrl+Shift+Space 押下
[keyboard] ──────────────────────────────────────────────
    │ on_press イベント検知
[録音スレッド(sounddevice)]
    │ マイク入力をキャプチャ(16kHz, float32)
    │ audio_frames バッファに蓄積
    │ ← キーを離す(on_release イベント)
[numpy] audio_frames を結合 → 1次元配列に変換
[Whisper(turbo モデル)] GPU推論(RTX 5070 Ti / CUDA)
    │ テキスト出力(日本語)
    ├─▶ [pyperclip] クリップボードにコピー
    └─▶ [pyautogui] Ctrl+V を送信
        カーソル位置に入力完了

アーキテクチャ図(draw.io): docs/whisper_voice_input_architecture.drawio


3. セットアップ

必要なライブラリ

# PyTorch(RTX 5070 Ti 対応 nightly)
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128

# Whisper
pip install openai-whisper

# その他
pip install sounddevice numpy keyboard pyperclip pyautogui

動作確認

import whisper
import torch

print("CUDA:", torch.cuda.is_available())         # True であること
print("GPU:", torch.cuda.get_device_name(0))       # RTX 5070 Ti
model = whisper.load_model("turbo", device="cuda") # エラーなくロードできること

4. 起動方法

管理者権限が必要です(keyboard ライブラリの制約)

# 管理者権限のターミナルで実行
python scripts/whisper_voice_input.py

起動すると以下のようなメッセージが表示されます:

Whisper音声入力ツール起動中...
モデル (turbo) をロード中...
モデルロード完了

使い方: [ctrl+shift+space] を押している間しゃべる → 離したら文字起こし開始
終了: Ctrl+C
--------------------------------------------------

5. 使い方

  1. 管理者権限 でターミナルを開き、スクリプトを起動
  2. 文字を入力したいアプリ(メモ帳、ブラウザ等)にカーソルを置く
  3. Ctrl + Shift + Space を押しながらしゃべる
  4. しゃべり終わったらキーを離す
  5. 自動で文字起こしされ、カーソル位置に入力される

コンソール出力例

録音中... (キーを離したら文字起こし)
文字起こし中...
認識結果: こんにちは、今日はいい天気ですね。
入力完了

6. 設定カスタマイズ

スクリプト冒頭の設定欄を編集します。

# ===== 設定 =====
HOTKEY = "ctrl+shift+space"  # ホットキー
MODEL_SIZE = "turbo"          # Whisperモデルサイズ
LANGUAGE = "ja"               # 言語(None で自動検出)
SAMPLE_RATE = 16000           # サンプリングレート(変更不要)
AUTO_TYPE = True              # True: カーソル位置に入力 / False: クリップボードのみ
# ================

ホットキーの変更例

HOTKEY = "ctrl+shift+space"  # デフォルト
HOTKEY = "f9"                 # F9キー単体
HOTKEY = "ctrl+alt+r"         # Ctrl+Alt+R

7. モデル選択ガイド

RTX 5070 Ti(VRAM 17.1 GB)なので大きいモデルも使用可能。

モデル VRAM目安 速度 精度 おすすめ用途
tiny ~1 GB 最速 テスト用
base ~1 GB 速い 普通 短い入力
small ~2 GB 普通 良い 日常使い
medium ~5 GB やや遅い 高い 専門用語あり
turbo ~6 GB 速い 高い 推奨(バランス)
large-v3 ~10 GB 遅い 最高 高精度が必要な場合

8. トラブルシューティング

ホットキーが反応しない

  • 管理者権限でターミナルを起動しているか確認
  • 他のアプリが同じホットキーを使っていないか確認

文字起こし精度が低い

  • モデルを大きくする(turbolarge-v3
  • マイクの音量・距離を調整
  • 静かな環境で使用する

CUDA available: False になる

  • PyTorchが nightly/cu128 版か確認:
    python -c "import torch; print(torch.__version__)"
    # 2.12.0.dev20260221+cu128 のようになっていること
    
  • NVIDIAドライバーが最新か確認

入力が遅い / モデルロードが遅い

  • 初回はモデルのダウンロードが走るため時間がかかります(turboは約1.5GB)
  • 2回目以降はキャッシュから読み込まれます
  • キャッシュ場所:C:\Users\<ユーザー名>\.cache\whisper\

sounddevice エラー

  • マイクがOSに認識されているか確認
  • 別のマイクデバイスを試す:
    import sounddevice as sd
    print(sd.query_devices())  # デバイス一覧を表示