ローカルで動く日本語STTを作る (2) faster-whisperでハンズオン

Qiita / 2026/5/15

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

前回のWhisper系STTの仕組み（音響特徴量への変換と、デコーダがトークンを順に出力する流れ）を踏まえ、ローカル日本語STT実装を次段階として扱う内容です。
faster-whisperを用いたハンズオンを通して、ローカル環境でWhisper系音声認識を動かすための実践手順を示します。
Python・音声認識・whisper関連の文脈で、機械学習/音声処理を自前実行する方向性（クラウド依存を減らす）に焦点があります。
タグとしてKotoba-Whisperなど日本語寄りのWhisper派生にも触れており、日本語STTの運用を意識した構成になっています。

はじめに第1回では「Whisper系のSTTがどう動いているか」を学びました。Encoderで音響特徴量に変換し、Decoderがトークンを順に出力する、というあの話です。今回はいよいよ手を動かします。ゴールは手元のWAVファイルを日本語テキストに変換するPy...

この記事の続きは原文サイトでお読みいただけます。

AI Business

Dev.to

Dev.to

Reddit r/LocalLLaMA

Dev.to