モデル

Whisper

ウィスパー

OpenAI が公開した音声認識モデルです。99 言語に対応し、Apache 2.0 ライセンスで無償利用できます。

体験区分：少しだけ触った推奨読者レベル：Level 3

音声ファイルをテキストに変換します。99 言語の文字起こしと翻訳に対応し、ローカル環境でも動かせます。whisper.cpp を使うと CPU だけで軽量推論できます。

会議録や動画の字幕生成を自動化したいときに名前が出ます。音声系サービスの内部でも採用されており、API 経由で自前アプリに組み込む場面でも登場します。

ワークフロー図

2026.04·ready

「議事録は Whisper を API で呼んで文字起こしするのが手軽です。」

Whisperの見方

229

この用語の見どころ

役割

音声をテキストへ変換するオープンな基盤モデルです。

うれしさ

無償・ローカル動作可能で、商用利用も許可されています。

注意点

精度は音質や話速によって変わることがあります。

どこで役立つか

議事録自動化や動画字幕生成など音声テキスト化の場面。

はじめに

API 利用とローカル実行（whisper.cpp）の 2 択を把握します。

深掘り先

OpenAI API、whisper.cpp、Dictation（G-3）。

非エンジニアのつまずき

私のコメント

開発フローでの位置

音声ファイルを準備する

→

実行方法を選ぶ

→

モデルに渡す

→

テキストを受け取る