Whisper 音声入力ツールマニュアル¶

ホットキーを押している間しゃべると、離したタイミングで自動的に文字起こしされ、カーソル位置に入力されます。

目次¶

システム概要
アーキテクチャ
セットアップ
起動方法
使い方
設定カスタマイズ
モデル選択ガイド
トラブルシューティング

1. システム概要¶

項目	内容
スクリプト	`scripts/whisper_voice_input.py`
動作OS	Windows 11
GPU	NVIDIA GeForce RTX 5070 Ti（CUDA対応）
デフォルトホットキー	`Ctrl + Shift + Space`
デフォルトモデル	`turbo`（高速・高精度）
デフォルト言語	日本語（`ja`）

2. アーキテクチャ¶

[ユーザー]
    │
    │ Ctrl+Shift+Space 押下
    ▼
[keyboard] ──────────────────────────────────────────────
    │ on_press イベント検知
    ▼
[録音スレッド（sounddevice）]
    │ マイク入力をキャプチャ（16kHz, float32）
    │ audio_frames バッファに蓄積
    │
    │ ← キーを離す（on_release イベント）
    │
    ▼
[numpy] audio_frames を結合 → 1次元配列に変換
    │
    ▼
[Whisper（turbo モデル）] GPU推論（RTX 5070 Ti / CUDA）
    │ テキスト出力（日本語）
    │
    ├─▶ [pyperclip] クリップボードにコピー
    │
    └─▶ [pyautogui] Ctrl+V を送信
              │
              ▼
        カーソル位置に入力完了

アーキテクチャ図（draw.io）: docs/whisper_voice_input_architecture.drawio

3. セットアップ¶

必要なライブラリ¶

# PyTorch（RTX 5070 Ti 対応 nightly）
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128

# Whisper
pip install openai-whisper

# その他
pip install sounddevice numpy keyboard pyperclip pyautogui

動作確認¶

import whisper
import torch

print("CUDA:", torch.cuda.is_available())         # True であること
print("GPU:", torch.cuda.get_device_name(0))       # RTX 5070 Ti
model = whisper.load_model("turbo", device="cuda") # エラーなくロードできること

4. 起動方法¶

管理者権限が必要です（keyboard ライブラリの制約）

# 管理者権限のターミナルで実行
python scripts/whisper_voice_input.py

起動すると以下のようなメッセージが表示されます：

Whisper音声入力ツール起動中...
モデル (turbo) をロード中...
モデルロード完了

使い方: [ctrl+shift+space] を押している間しゃべる → 離したら文字起こし開始
終了: Ctrl+C
--------------------------------------------------

5. 使い方¶

管理者権限 でターミナルを開き、スクリプトを起動
文字を入力したいアプリ（メモ帳、ブラウザ等）にカーソルを置く
Ctrl + Shift + Space を押しながらしゃべる
しゃべり終わったらキーを離す
自動で文字起こしされ、カーソル位置に入力される

コンソール出力例¶

録音中... (キーを離したら文字起こし)
文字起こし中...
認識結果: こんにちは、今日はいい天気ですね。
入力完了

6. 設定カスタマイズ¶

スクリプト冒頭の設定欄を編集します。

# ===== 設定 =====
HOTKEY = "ctrl+shift+space"  # ホットキー
MODEL_SIZE = "turbo"          # Whisperモデルサイズ
LANGUAGE = "ja"               # 言語（None で自動検出）
SAMPLE_RATE = 16000           # サンプリングレート（変更不要）
AUTO_TYPE = True              # True: カーソル位置に入力 / False: クリップボードのみ
# ================

ホットキーの変更例¶

HOTKEY = "ctrl+shift+space"  # デフォルト
HOTKEY = "f9"                 # F9キー単体
HOTKEY = "ctrl+alt+r"         # Ctrl+Alt+R

7. モデル選択ガイド¶

RTX 5070 Ti（VRAM 17.1 GB）なので大きいモデルも使用可能。

モデル	VRAM目安	速度	精度	おすすめ用途
`tiny`	~1 GB	最速	低	テスト用
`base`	~1 GB	速い	普通	短い入力
`small`	~2 GB	普通	良い	日常使い
`medium`	~5 GB	やや遅い	高い	専門用語あり
`turbo`	~6 GB	速い	高い	推奨（バランス）
`large-v3`	~10 GB	遅い	最高	高精度が必要な場合

8. トラブルシューティング¶

ホットキーが反応しない¶

管理者権限でターミナルを起動しているか確認
他のアプリが同じホットキーを使っていないか確認

文字起こし精度が低い¶

モデルを大きくする（turbo → large-v3）
マイクの音量・距離を調整
静かな環境で使用する

`CUDA available: False` になる¶

PyTorchが nightly/cu128 版か確認：

python -c "import torch; print(torch.__version__)"
# 2.12.0.dev20260221+cu128 のようになっていること

NVIDIAドライバーが最新か確認

入力が遅い / モデルロードが遅い¶

初回はモデルのダウンロードが走るため時間がかかります（turboは約1.5GB）
2回目以降はキャッシュから読み込まれます
キャッシュ場所：C:\Users\<ユーザー名>\.cache\whisper\

`sounddevice` エラー¶

マイクがOSに認識されているか確認

別のマイクデバイスを試す：

import sounddevice as sd
print(sd.query_devices())  # デバイス一覧を表示

Whisper 音声入力ツール マニュアル¶

目次¶