オフライン配信ギャップを縮める：整合性正則化による統一ASRトランスデューサ

arXiv cs.CL / 2026/4/22

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、統一ASR（自動音声認識）モデルにおける重要な課題として、単一モデルでオフライン復号と低遅延ストリーミング復号の両方で高い性能を出す難しさを扱っています。
著者らは、RNNT（Recurrent Neural Network Transducer）向けの統一ASRフレームワークを提案し、右側の文脈を持つチャンク制限付き注意と、ダイナミックなチャンク化畳み込みにより、オフラインとストリーミングの両方の復号を1つのモデルで実現します。
オフラインとストリーミングの性能差（ギャップ）を縮めるために、RNNT向けモード整合性正則化（MCR-RNNT）を導入し、Tritonで効率よく実装して学習モード間の一致を促します。
実験では、低遅延ストリーミングの精度が向上しつつオフライン性能は維持され、さらに大規模モデルや大きい学習データセットにもスケールすることが示されています。
統一フレームワークと英語モデルのチェックポイントはオープンソース化されており、導入や追加検証が容易になります。

要旨: 自動音声認識（ASR）システムの統一は、開発および保守のコストを削減しますが、オフラインおよび低遅延ストリーミングの両方の状況で単一モデルが良好に機能するように訓練することは依然として困難です。本稿では、Transducer（RNNT）の学習のための統一ASRフレームワークを提示します。このフレームワークは、右文脈を用いたチャンク制限付き注意と、動的なチャンク化畳み込みにより、単一モデル内でオフライン復号とストリーミング復号の両方をサポートします。さらにオフラインとストリーミングの性能差を埋めるために、RNNTに対するモード整合性正則化の効率的なTriton実装（MCR-RNNT）を導入し、学習モード間の一致を促します。実験の結果、提案手法は低遅延におけるストリーミング精度を向上させつつ、オフライン性能を維持し、より大きなモデルサイズや訓練データセットへのスケーリングも可能であることが示されました。提案する統一ASRフレームワークおよび英語モデルのチェックポイントはオープンソースとして公開されています。

政府AI「源内」オープンソース化　GitHubで公開、商用利用もOK　民間と共創へ

ITmedia AI+

「DeepSeek-V4」登場　オープンながら“世界トップのクローズドモデルに匹敵”うたう

ITmedia AI+

#2 : プロンプト研究講座【第22回】AI画像の連続性・一貫性の維持

note

【個人開発ストーリー】就活生の"面接の記憶"を端末内だけで分析するAIアプリ「Mentor AI」を作ってApp Storeに出した話

note

面倒なデータ整理は Gemini にお任せ！AI 関数でスプレッドシートをフル活用しよう

note

オフライン配信ギャップを縮める：整合性正則化による統一ASRトランスデューサ

要点

関連記事

政府AI「源内」オープンソース化　GitHubで公開、商用利用もOK　民間と共創へ

「DeepSeek-V4」登場　オープンながら“世界トップのクローズドモデルに匹敵”うたう

#2 : プロンプト研究講座【第22回】AI画像の連続性・一貫性の維持

【個人開発ストーリー】就活生の"面接の記憶"を端末内だけで分析するAIアプリ「Mentor AI」を作ってApp Storeに出した話

面倒なデータ整理は Gemini にお任せ！AI 関数でスプレッドシートをフル活用しよう

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

政府AI「源内」オープンソース化 GitHubで公開、商用利用もOK 民間と共創へ

「DeepSeek-V4」登場 オープンながら“世界トップのクローズドモデルに匹敵”うたう

#2 : プロンプト研究講座【第22回】AI画像の連続性・一貫性の維持

【個人開発ストーリー】就活生の"面接の記憶"を端末内だけで分析するAIアプリ「Mentor AI」を作ってApp Storeに出した話

面倒なデータ整理は Gemini にお任せ！AI 関数でスプレッドシートをフル活用しよう

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

政府AI「源内」オープンソース化　GitHubで公開、商用利用もOK　民間と共創へ

「DeepSeek-V4」登場　オープンながら“世界トップのクローズドモデルに匹敵”うたう