会議の議事録、YouTubeの字幕、インタビューのテキスト化――音声を文字に変換する作業は、多くのビジネスパーソンやクリエイターにとって日常的なタスクです。しかし手作業での文字起こしは、1時間の音声に3〜4時間かかることも珍しくありません。
この問題を解決してくれるのが、OpenAIが開発したAI文字起こしツール「Whisper」です。完全無料かつオープンソースでありながら、日本語の認識精度は有料ツールに匹敵するレベルを誇ります。公式情報はOpenAI Whisper公式ページで確認できます。
この記事では、Whisperの使い方を初心者にもわかるレベルで解説します。Google Colabを使った最も手軽な方法から、ローカルPCへのインストール、API活用まで、3つのパターンを網羅しています。

🤖 ナビ助のおすすめ!
Whisperとは?基本情報まとめ
WhisperはOpenAI(ChatGPTの開発元)が2022年にリリースした音声認識AIです。GitHubのリポジトリでオープンソースとして公開されており、誰でも無料で利用できます。
主な特徴は次のとおりです。
- 99言語に対応(日本語の精度も高い)
- 完全無料・オープンソース
- ローカル実行可能(音声データを外部に送信しない)
- タイムスタンプ付きの文字起こしが可能
- 複数のモデルサイズから選べる(速度と精度のトレードオフ)
Whisperの使い方3パターン
パターン1:Google Colabで使う(初心者向け)
パソコンの環境構築が不要で、最も手軽な方法です。GoogleアカウントとWebブラウザがあれば5分で使い始められます。
Google Colabを使えば、環境構築の手間なく今すぐWhisperを試せます。初めての方はまずこの方法をおすすめします。
手順:
- Google Colabにアクセス(colab.research.google.com)
- 新しいノートブックを作成
- 以下のコードをセルに貼り付けて実行
!pip install openai-whisper
import whisper
model = whisper.load_model("medium")
result = model.transcribe("音声ファイル.mp3")
print(result["text"])
- 音声ファイルをColab上にアップロード(左側のファイルアイコンからドラッグ&ドロップ)
- ファイル名を指定して実行すれば、文字起こし結果が表示されます
無料のColabでもmediumモデルなら問題なく動作します。大きいファイル(1時間超)はlargeモデルが必要で、Colab Proの利用を推奨します。
パターン2:ローカルPCにインストールして使う(中級者向け)
自分のPCで実行する方法です。音声データを外部に送らないため、機密性の高い会議録にも安心して使えます。
前提条件:
- Python 3.8以上がインストール済み
- ffmpegがインストール済み
- GPU搭載PCだと高速(GPUなしでもCPUで動作可能)
インストール手順:
pip install openai-whisper
コマンドラインで実行:
whisper 音声ファイル.mp3 --language ja --model medium
これだけで、テキストファイル(.txt)、タイムスタンプ付き(.srt、.vtt)など複数形式で出力されます。

パターン3:Whisper APIを使う(開発者向け)
OpenAIのAPIとして利用する方法です。アプリに組み込んだり、大量のファイルを一括処理したりする場合に便利です。
from openai import OpenAI
client = OpenAI()
audio_file = open("音声ファイル.mp3", "rb")
transcript = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file
)
print(transcript.text)
API利用は有料(1分あたり約0.006ドル=約0.9円)ですが、大量処理する場合のコストパフォーマンスは良好です。最新情報はChatGPT公式ページでも確認できます。
Whisperのモデルサイズ比較
| モデル | パラメータ数 | 必要メモリ | 処理速度 | 日本語精度 | おすすめ用途 |
|---|---|---|---|---|---|
| tiny | 39M | 約1GB | ★★★★★ | ★★☆☆☆ | 軽いメモ程度 |
| base | 74M | 約1GB | ★★★★☆ | ★★★☆☆ | 簡単な文字起こし |
| small | 244M | 約2GB | ★★★☆☆ | ★★★★☆ | 日常的な文字起こし |
| medium | 769M | 約5GB | ★★☆☆☆ | ★★★★★ | 日本語ならコレが最適 |
| large-v3 | 1550M | 約10GB | ★☆☆☆☆ | ★★★★★ | 最高精度が必要な場合 |
日本語の文字起こしなら「medium」が精度とスピードのベストバランスです。largeモデルは精度こそ最高ですが、mediumとの差はわずかで処理時間は倍以上かかります。
Whisper vs 有料文字起こしツール比較
| 項目 | Whisper(無料) | notta | CLOVA Note | Otter.ai |
|---|---|---|---|---|
| 料金 | 完全無料 | 月額1,200円〜 | 無料(制限あり) | 月額16.99ドル〜 |
| 日本語精度 | ★★★★★ | ★★★★★ | ★★★★☆ | ★★★☆☆ |
| リアルタイム文字起こし | △(別途設定が必要) | ○ | ○ | ○ |
| 話者分離 | △(追加ツール必要) | ○ | ○ | ○ |
| プライバシー | ◎(ローカル実行可) | クラウド処理 | クラウド処理 | クラウド処理 |
| セットアップ難易度 | やや高い | 簡単 | 簡単 | 簡単 |
| AI要約機能 | なし(別途対応) | あり | なし | あり |
「無料で高精度」を求めるならWhisper一択です。「手軽さ」や「リアルタイム対応」が重要であればnottaやCLOVA Noteが適しています。

🤖 ナビ助のおすすめ!
Whisperの精度を上げるコツ
コツ1:音声ファイルの品質を上げる
AIの精度は入力音声の品質に大きく依存します。ノイズの多い音声は認識精度が下がるため、録音時にできるだけ静かな環境で、マイクに近い距離で録るのが基本です。既存の音声にノイズが多い場合は、Audacityなどの無料ソフトでノイズ除去してからWhisperに渡しましょう。
コツ2:languageパラメータを明示する
--language jaを指定するだけで、日本語の認識精度が向上します。自動検出モードだと冒頭の30秒で言語を判定するため、冒頭が無音の場合に誤判定されることがあります。
言語パラメータを指定しないと、自動検出で別の言語と判定される場合があります。日本語の音声には必ず --language ja を付けましょう。
コツ3:長い音声はチャンク分割する
1時間以上の音声は、10〜15分ごとに分割してから処理すると精度が安定します。ffmpegで簡単に分割可能です。
ffmpeg -i input.mp3 -f segment -segment_time 900 -c copy output_%03d.mp3
コツ4:faster-whisperで高速化する
オリジナルのWhisperをCTranslate2で最適化した「faster-whisper」を使うと、精度を維持したまま処理速度が4〜6倍に向上します。処理時間が気になる方にはおすすめの選択肢です。
pip install faster-whisper
よくある質問(FAQ)
Q. Whisperはスマホでも使える?
直接スマホで動かすのは難しいですが、Google Colab経由ならスマホのブラウザからでも利用可能です。また、Whisperを組み込んだスマホアプリ(無料のものもあり)も登場しています。
Q. 動画ファイル(MP4)も文字起こしできる?
可能です。Whisperは音声トラックを自動で抽出して処理するため、MP4をそのまま入力しても問題ありません。YouTubeの字幕作成にも活用できます。
Q. 専門用語が多い音声でも正確に起こせる?
一般的な専門用語であればかなり正確です。ただし、社内用語や造語は認識できません。initial_promptパラメータで「この音声にはAI、機械学習、ディープラーニングなどの用語が含まれます」とヒントを与えると精度が上がります。
Q. リアルタイムの文字起こしはできる?
標準のWhisperはファイル入力のみですが、whisper_streamingやReazonSpeechなどのツールを組み合わせれば、リアルタイム文字起こしも実現可能です。ただしセットアップの難易度は上がります。
Q. 商用利用は可能?
WhisperはMITライセンスで公開されているため、商用利用も含めて自由に使えます。議事録作成サービスや字幕生成サービスへの組み込みも問題ありません。
Q. GPUがないパソコンでも使える?
使えます。CPUのみでも動作しますが、処理速度は遅くなります。tinyやbaseモデルならCPUでも実用的な速度です。mediumモデルをCPUで動かすと、1時間の音声に30分〜1時間程度かかります。GPU搭載PCなら数分で完了します。
まとめ:Whisperは「無料×高精度」の最強文字起こしツール
- WhisperはOpenAI製の無料オープンソース文字起こしAI
- Google Colabなら環境構築不要で5分で使える
- 日本語精度はmediumモデルがベスト(有料ツール並み)
- ローカル実行できるのでプライバシーも安心
- 音声品質を上げる・languageを指定する・分割処理で精度向上
- 商用利用もMITライセンスで自由
文字起こしに毎月コストをかけている方は、一度Whisperを試してみてください。無料でここまでの精度が出ることに驚くはずです。Google Colabなら今すぐ始められるので、まずは短い音声ファイルで実力を体感してみましょう。

🤖 ナビ助のおすすめ!


