オフライン配信ギャップを縮める:整合性正則化による統一ASRトランスデューサ

arXiv cs.CL / 2026/4/22

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、統一ASR(自動音声認識)モデルにおける重要な課題として、単一モデルでオフライン復号と低遅延ストリーミング復号の両方で高い性能を出す難しさを扱っています。
  • 著者らは、RNNT(Recurrent Neural Network Transducer)向けの統一ASRフレームワークを提案し、右側の文脈を持つチャンク制限付き注意と、ダイナミックなチャンク化畳み込みにより、オフラインとストリーミングの両方の復号を1つのモデルで実現します。
  • オフラインとストリーミングの性能差(ギャップ)を縮めるために、RNNT向けモード整合性正則化(MCR-RNNT)を導入し、Tritonで効率よく実装して学習モード間の一致を促します。
  • 実験では、低遅延ストリーミングの精度が向上しつつオフライン性能は維持され、さらに大規模モデルや大きい学習データセットにもスケールすることが示されています。
  • 統一フレームワークと英語モデルのチェックポイントはオープンソース化されており、導入や追加検証が容易になります。

要旨: 自動音声認識(ASR)システムの統一は、開発および保守のコストを削減しますが、オフラインおよび低遅延ストリーミングの両方の状況で単一モデルが良好に機能するように訓練することは依然として困難です。本稿では、Transducer(RNNT)の学習のための統一ASRフレームワークを提示します。このフレームワークは、右文脈を用いたチャンク制限付き注意と、動的なチャンク化畳み込みにより、単一モデル内でオフライン復号とストリーミング復号の両方をサポートします。さらにオフラインとストリーミングの性能差を埋めるために、RNNTに対するモード整合性正則化の効率的なTriton実装(MCR-RNNT)を導入し、学習モード間の一致を促します。実験の結果、提案手法は低遅延におけるストリーミング精度を向上させつつ、オフライン性能を維持し、より大きなモデルサイズや訓練データセットへのスケーリングも可能であることが示されました。提案する統一ASRフレームワークおよび英語モデルのチェックポイントはオープンソースとして公開されています。