コンテンツにスキップ

Whisper ローカル文字起こし セットアップガイド

📁 docs/dev-environment/artifact/whisper-setup.md

OpenAI Whisper をローカルで動かし、音声→テキスト変換を生成AIへの入力として活用するための手順。 クラウドに音声を送らないため、プライバシーが保たれる。

関連Issue: KZ55230/MyLab#301


Mac(Apple Silicon)セットアップ

前提条件

  • Homebrew がインストール済みであること

1. pyenv・ffmpeg のインストール

brew install pyenv ffmpeg

.zshrc に以下を追記:

export PYENV_ROOT="$HOME/.pyenv"
export PATH="$PYENV_ROOT/bin:$PATH"
eval "$(pyenv init -)"

設定を反映:

source ~/.zshrc

2. Python 3.12 のインストール

pyenv install 3.12.9

3. venv の作成と Whisper インストール

pyenv shell 3.12.9
python -m venv ~/.venv/whisper
source ~/.venv/whisper/bin/activate
pip install -U pip
pip install openai-whisper

4. 動作確認

source ~/.venv/whisper/bin/activate
whisper --help

Windows セットアップ

前提条件

  • Python 3.10〜3.12 がインストール済みであること(python.org から取得)
  • Developer Mode が有効になっていること(設定 → システム → 開発者向け)

1. ffmpeg のインストール

Chocolatey を使う場合:

choco install ffmpeg

または ffmpeg公式サイト から手動でダウンロードし、PATH に追加する。

2. venv の作成と Whisper インストール

python -m venv $env:USERPROFILE\.venv\whisper
$env:USERPROFILE\.venv\whisper\Scripts\Activate.ps1
pip install -U pip
pip install openai-whisper

3. 動作確認

whisper --help

使い方

基本的な文字起こし

source ~/.venv/whisper/bin/activate  # Mac
# $env:USERPROFILE\.venv\whisper\Scripts\Activate.ps1  # Windows

whisper audio.m4a --language ja --model small

Apple Silicon の MPS アクセラレーションを使う(Mac のみ)

whisper audio.m4a --language ja --model medium --device mps

出力形式を指定する

# テキストのみ出力(AIへの貼り付けに便利)
whisper audio.m4a --language ja --model small --output_format txt

モデル選択の目安

モデル 精度 速度 用途
tiny 動作確認用
base 普通 普通 短い音声
small 普通 日常使いに推奨
medium 遅め 精度重視の場合
large 最高 遅い 長時間・高精度が必要な場合

初回実行時にモデルが自動ダウンロードされる(~/.cache/whisper/)。


注意事項

  • Python 3.13 は非対応。必ず 3.10〜3.12 を使うこと
  • ffmpeg の PATH が通っていないと、Whisper が無言で失敗する
  • Mac で --device mps を指定しないと CPU で動作する(遅い)
  • venv を有効化してから whisper コマンドを実行すること