おすすめのオープンソース字幕生成は?Canary Qwen 2.5B+Whisper 完全ガイド

Dev.to / 2026/5/2

💬 オピニオンTools & Practical UsageModels & Research

要点

  • NVIDIA NeMoのCanary-Qwen-2.5Bを使う英語音声認識について、複数の英語音声ベンチマークでWhisperを上回る性能を目指す内容が紹介されています。
  • Whisper TTS Premium(SECourses)のアプリにCanary Qwen 2.5Bの対応が追加され、ローカルで字幕を生成し、Whisper Large V3と比較するデモが行われています。
  • 生成速度・精度の結果として、Canary Qwen 2.5BはグローバルWER 5.91%を示し、実時間文字起こしに対して最大46倍の速さを達成したとされています。
  • 出力形式、チャンク長、バッチ処理、YouTube URL/マイクのライブ入力、プリセット保存など、Windowsでの導入から運用までの手順と注意点(初回モデルDL、RTX 5000/CUDA 13、VRAM/RAMリーク対策のsubprocessモード等)が解説されています。
  • Canaryをデフォルト推奨としつつ、幅広い言語対応や単語レベルのタイムスタンプが必要な場合はWhisperを選ぶべきだと整理されています。

最高のオープンソース字幕生成ツールは? Canary Qwen 2.5B + Whisper フルガイド

完全なチュートリアルリンク > https://www.youtube.com/watch?v=4lAk6sf1qF8

情報

NVIDIA NeMo Canary-Qwen-2.5Bは、複数の英語音声ベンチマークで最先端の性能を達成する英語音声認識モデルです。Canaryモデルは、名高いWhisperの座を奪った新たな王です。

NVIDIAのCanary Qwen 2.5B対応を追加した、SECoursesによるWhisper TTSプレミアムの音声入力(スピーチ・トゥ・テキスト)アプリの完全なチュートリアルです。この動画では、ローカルでの字幕生成をデモし、Canary Qwen 2.5BをWhisper Large V3と比較し、出力形式、バッチ処理、プリセット、YouTube URL、ライブマイクのオプションを紹介し、その後Windowsに最初からアプリをインストールします。

また、RunPodやMassed Computeのメモ、初回実行時のモデルダウンロード、RTX 5000/CUDA 13のドライバ要件、VRAM/RAMリークを防ぐためのサブプロセスモード、そしてCanaryの代わりにWhisperを使うべきタイミングも見ていきます。

リンク:

アプリのダウンロードとソース記事: [ https://www.patreon.com/posts/whisper-webui-to-145395299 ]

Discord: [ https://discord.com/channels/772774097734074388/1079506787734134844 ]

Patreonアプリのインデックス: [ https://github.com/FurkanGozukara/Stable-Diffusion/blob/main/Patreon-Posts-Index.md ]

関連するRunPod/Massed Computeのセットアップチュートリアル: [ https://youtu.be/ZRrzvD4wNys ]

私のチュートリアル動画テストでは、Canary Qwen 2.5BがグローバルWER 5.91%を達成し、実時間書き起こしより最大46倍速くなりました。そのため、英語の音声入力(スピーチ・トゥ・テキスト)の新しい推奨デフォルトとしています。Whisperは、より広い話し言葉のサポートや単語レベルのタイムスタンプが必要な場合に引き続き役立ちます。

チャプター:

  • 0:00 ローカルのオープンソース音声入力アプリと新しいCanary対応の紹介
  • 0:20 NVIDIA Canary Qwen 2.5Bで素早くセットアップデモ
  • 0:33 高品質デフォルトと字幕生成の開始
  • 0:48 ライブ書き起こしの速度と精度のプレビュー
  • 1:03 字幕の小さい/大きい区間のためのチャンク長設定
  • 1:18 高速生成、対応するエクスポート、すべての形式での再起動
  • 1:31 複数の字幕ファイル形式を説明
  • 1:47 バッチ処理のフォルダ、出力パス、サブフォルダ、上書きモード
  • 1:58 YouTube URL、マイク/ライブ書き起こし、翻訳、BGM分離
  • 2:09 プリセットを保存し高度なパラメータを使う
  • 2:24 WhisperおよびCanaryモデルの自動最適化デフォルト
  • 2:39 Canary Qwen 2.5B vs Whisper Large V3の比較が始まる
  • 2:54 実世界のWERベンチマークとCanaryの5.91%結果
  • 3:10 非ネイティブの英語音声が正確に書き起こすのが難しい理由
  • 3:24 Canaryの速度優位性と「46倍」の実時間書き起こしについて説明
  • 3:43 長い動画/短い動画の両方でのテスト平均
  • 3:59 Whisperがわずかに勝つケースと、最終的なCanaryの推奨
  • 4:14 書き起こし完了後に出力フォルダを開く
  • 4:27 VTT出力、ファイル名の一致、大文字小文字、句読点
  • 4:44 生成された書き起こし内の精度例
  • 4:58 TXT、TSV、SRT、LRCのエクスポートと単語レベルのタイムスタンプ注記
  • 5:20 ダウンロードページ、最新ZIP、インストール概要
  • 5:31 Windows要件:Python 3.11、Git、CUDA、C++のメモ
  • 5:51 インストール場所の選択と、アプリをvenvで隔離しておく
  • 6:04 ZIPを展開して、Windows用のインストール/アップデートBATを実行
  • 6:23 初回実行時の自動モデルダウンロード
  • 6:34 RunPod、Massed Compute、Linuxのインストールファイル
  • 6:50 関連ガイドでRunPodとMassed Computeのセットアップを学べる場所
  • 7:29 UV搭載のWindowsインストールはすぐに完了
  • 7:41 Windowsの「起動アプリ」BATでアプリを開始
  • 7:58 映像/音声入力を選び、フレッシュインストールで字幕生成
  • 8:10 初回のCanaryモデルダウンロードとモデルサイズ5GB
  • 8:35 簡単セットアップの目標と、自動的なフレッシュインストール手順
  • 8:53 Discord、Patreonインデックス、100+のSECoursesアプリケーション
  • 9:13 RTX 5000対応と更新されたNVIDIAドライバ要件
  • 9:35 フレッシュインストールの書き起こしが正常に開始
  • 9:47 Canary、Whisper、ダイアライゼーション、追加ツールの自動ダウンロード
  • 10:16 Canaryが新しいデフォルトのモデル推奨になる
  • 10:36 VRAMおよびRAMのリークを防ぐためのサブプロセスモード
  • 10:51 書き起こしをサブプロセスとして実行することが推奨される理由
  • 11:04 必要に応じてWhisperモデルへ切り替える
  • 11:20 Whisperの言語カバー範囲 vs Canary、音声/映像の対応
  • 11:42 実際の録音ベンチマーク:27分を約2分で書き起こし
  • 11:56 モデル読み込みのオーバーヘッドとクリーンなRAM/VRAMの解放
  • 12:08 最終メモ、購読リマインダー、完全な書き起こしZIPのダウンロード

ダウンロード:インストーラとアプリ

https://www.patreon.com/posts/145395299

2026年4月30日 - バージョン10.0

  • これは、私たちのアプリケーションに対するかなり大きなアップグレードです

  • これでNVIDIA NeMo Canary-Qwen-2.5Bを完全にサポート:英語の音声認識モデルです: https://huggingface.co/nvidia/canary-qwen-2.5b

  • このモデルは現在、英語向けのスピーチ・トゥ・テキスト(音声認識)における最先端(SOTA)モデルです

  • 私は徹底的に調査とテストを行い、最良のデフォルトパラメータに設定されています

  • Whisperアプリですでにサポートしていたすべての機能を完全にサポート

  • ZIPファイルを入手し、これまでのすべてのファイルを上書きして、更新/アップグレードのためにインストーラを実行してください

  • モデルは初回起動時に自動でダウンロードされます

image

  • また、Whisperの最良の構成との比較も行いました。比較結果はここにあります(Whisperの最良の結果を使用)

image

image

image

  • ご覧のとおり、NVIDIA NeMo Canary-Qwen-2.5B は単に大幅に性能が良いだけでなく、さらに高速です

15 April 2026 - Version 8.0

  • ディアライゼーションにいくつかのエラーがあり、それを修正しました

  • Mic タブを完全に作り直しました。これにより、マイクからのライブ文字起こしと、マイクから行うオフライン文字起こしの両方が動作するようになりました

    • ライブ文字起こしの品質はそれほど良くありません
    • ライブ文字起こしと、マイクから行うオフライン文字起こしの録音は、いずれも outputs フォルダーに保存されます
    • ライブ文字起こしは自動で開始されますが、オフライン文字起こしはまずマイクで音声を録音し、その後「Generate Subtitles」ボタンをクリックしてください
  • 更新 / インストールは、最新の zip ファイルを入手し、古いファイルを上書きしてから Windows_Install_Update.bat を実行してください

image

image

14 April 2026 - Version 7.0

  • ディアライゼーションのファイルを今は自動でダウンロードするようになったため、Hugging Face トークンを入力したり、許可を取る必要がなくなりました

  • 任意の YouTube リンクをコピー&ペーストして字幕を生成できるようになりました

    • これは壊れていたので、今は修正済みです
    • 生成されるファイルは、動画タイトルと同じ名前で保存されます
  • YouTube 動画チャンネル向けに字幕を一括生成できるようになりました

  • 動画チャンネルを貼り付けてバッチを有効化すると、すべての動画の字幕を生成します

    • 何本分の動画を処理したいかを設定します(最新のものをスキャンします)
    • YouTube によりレート制限を受ける可能性があります
  • 更新 / インストールは、最新の zip ファイルを入手し、古いファイルを上書きしてから Windows_Install_Update.bat を実行してください

image

8 April 2026 - Version 5.0

  • これは、非常に多くの新機能を含む大規模なアップデートです

    • 最新の zip ファイルを入手し、フレッシュインストールを行ってください > https://www.patreon.com/posts/145395299
    • Windows、RunPod、SimplePod、Massed Compute、Linux への 1クリックインストール
    • image
  • 保存&読み込みが可能な新しいプリセットシステムを導入しました。極めて十分にテストされたベスト品質および高速の事前作成プリセットがあります

    • プリセットは切り替えるたびに自動で読み込まれ、さらにアプリを再起動した際に最後に使ったプリセットも覚えています
    • 品質向上のために「Word Timestamps」はデフォルトで有効になっていますが、通常版も自動で生成します
  • 文字起こしダウンロードボタン

  • 出力(outputs)フォルダーを開くボタン(すべての文字起こしは自動的に保存されます)

  • パスから動画 / 音声ファイルを直接読み込み(Gradio のアップロードが遅い RunPod などのプラットフォームで便利)

image

  • 高速プリセットは、新しく社内実装したバッチサイズ 32 機能を使用しており、他の既存のすべての Whisper アプリやリポジトリと比べて文字通り驚くほど高速です

  • プレビュー付きで、あらゆる種類の動画および音声フォーマットのアップロードを完全にサポート

  • 一括処理(バッチ)フォルダー処理:指定したフォルダー内のすべてのファイルが自動で処理されます

  • 処理中に最新の文字起こしをリアルタイムで表示するライブ文字起こしウィンドウ

  • バッチサイズ 1、ベスト品質で、11x のリアルタイム文字起こし速度(GPU に依存します)

  • バッチサイズ 32、高速プリセットで、15x〜30x のリアルタイム文字起こし速度(GPU に依存します)

  • 新機能:各ウィンドウごとに「Repeat Initial Prompt Every Window」を繰り返す

image

  • Large V1、Large V3、Turbo、Distill Large、Tiny など、すべての Whisper モデルをサポート

  • 以下のフォーマット出力に対応しており、すべてにチェックを入れれば、生成物を同時にすべて作成できます:SRT、WebVTT、txt、LRC、JSON、TSV

    • すべての出力は、入力ファイル名と同じ名前になります
  • サブプロセス動作システムにより、RAM または VRAM のリークが 0 のまま、任意の処理をすぐにキャンセルできます

  • Windows および Linux を完全にサポート(Massed Compute インストーラーを使用)

  • Python 3.11 VENV と CUDA 13、さらに Flash Attention のような事前コンパイル済みライブラリを含む Torch 2.9.1 に基づいています

  • 出力が気に入らない場合は、「Condition On Previous Text」を有効/無効にしてみてください。これは大きな違いになります。

  • image

    • このアプリは100の言語と32のモデルをサポートしています

    image

    image

    image

    • 高度なパラメータがたくさんあり、すべて最高品質に設定されています

    • 内蔵のバックグラウンドミュージック除去フィルター

    • 内蔵の音声検出フィルター

    • image

    • 進行状況全体を確認できる、完全に詳細なCMD出力

    • VRAM使用量を極限まで最適化。6GBのGPUでも可能

    image

    • YouTube、マイクからの録音、T2T翻訳、BGM分離など、その他の便利な機能

    image

    フルページスクリーンショット

    screencapture-127-0-0-1-7861-2026-05-02-05_09_06