ローカルで動く日本語STTを作る (2) faster-whisperでハンズオン
Qiita / 2026/5/15
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage
要点
- 前回のWhisper系STTの仕組み(音響特徴量への変換と、デコーダがトークンを順に出力する流れ)を踏まえ、ローカル日本語STT実装を次段階として扱う内容です。
- faster-whisperを用いたハンズオンを通して、ローカル環境でWhisper系音声認識を動かすための実践手順を示します。
- Python・音声認識・whisper関連の文脈で、機械学習/音声処理を自前実行する方向性(クラウド依存を減らす)に焦点があります。
- タグとしてKotoba-Whisperなど日本語寄りのWhisper派生にも触れており、日本語STTの運用を意識した構成になっています。
はじめに
第1回 では「Whisper系のSTTがどう動いているか」を学びました。Encoderで音響特徴量に変換し、Decoderがトークンを順に出力する、というあの話です。
今回はいよいよ手を動かします。
ゴールは 手元のWAVファイルを日本語テキストに変換するPy...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →

