WhisperPipe:リアルタイム音声認識のための、リソース効率の高いストリーミング・アーキテクチャ

arXiv cs.CL / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • WhisperPipeは、Whisperのような大規模トランスフォーマーを用いたリアルタイムASRにおいて、文字起こし精度と計算効率の両立を目的とした新しいストリーミング・アーキテクチャである。
  • Silero VADにエネルギーに基づくフィルタリングを組み合わせるハイブリッドVADパイプラインにより、誤アクティベーションを34%削減し、リアルタイム性の信頼性を高める。
  • セグメント境界での情報損失を防ぐ、オーバーラップしたコンテキスト窓を用いたダイナミックなバッファリング機構により、メモリ使用量を上限制御できる。
  • 多様な音声データ2.5時間での評価では、WhisperPipeはエンドツーエンド遅延の中央値89 ms(90パーセンタイル142 ms)を達成し、ピークGPUメモリ使用量を48%削減する。
  • 精度はオフラインのWhisperに対してWERで2%以内にとどまり、既存のストリーミング手法より3〜5倍低いレイテンシで動作でき、エッジからクラウドまでモジュール設計で導入可能である。