ローカルで動く日本語STTを作る (2) faster-whisperでハンズオン

Qiita / 2026/5/15

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • 前回のWhisper系STTの仕組み(音響特徴量への変換と、デコーダがトークンを順に出力する流れ)を踏まえ、ローカル日本語STT実装を次段階として扱う内容です。
  • faster-whisperを用いたハンズオンを通して、ローカル環境でWhisper系音声認識を動かすための実践手順を示します。
  • Python・音声認識・whisper関連の文脈で、機械学習/音声処理を自前実行する方向性(クラウド依存を減らす)に焦点があります。
  • タグとしてKotoba-Whisperなど日本語寄りのWhisper派生にも触れており、日本語STTの運用を意識した構成になっています。
はじめに 第1回 では「Whisper系のSTTがどう動いているか」を学びました。Encoderで音響特徴量に変換し、Decoderがトークンを順に出力する、というあの話です。 今回はいよいよ手を動かします。 ゴールは 手元のWAVファイルを日本語テキストに変換するPy...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →