AI Navigate

Uni-ASR: 非ストリーミングおよびストリーミング自動音声認識のための統一LLMベースアーキテクチャ

arXiv cs.CL / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Uni-ASR は、アーキテクチャの変更を必要とせず、非ストリーミングとストリーミングの両方の自動音声認識をサポートする統一LLMベースアーキテクチャを導入します。
  • 遅延シナリオ全体にわたるデプロイの柔軟性を高めるため、2つの認識モード間をシームレスに切り替えられる共訓練パラダイムを提示します。
  • コンテキスト認識トレーニングパラダイムと共同設計のフォールバックデコード戦略を提案し、追加遅延を生じさせることなくストリーミングの精度を向上させます。
  • 実験結果は、非ストリーミングで競争力のある性能と、さまざまな遅延制約下でのストリーミングの高い有効性を示しています。
要旨: 自動音声認識(ASR)と大規模言語モデル(LLM)の深い統合は精度を大幅に向上させましたが、低遅延のストリーミング環境におけるこのようなシステムのデプロイは依然として難題です。本論文では、非ストリーミングとストリーミングの両方の音声認識機能を統合するLLMベースの統一フレームワークである Uni-ASR を提案します。アーキテクチャの変更を要さず、2つの認識モード間をシームレスに移行できる共訓練パラダイムを提案します。さらに、コンテキスト認識トレーニングパラダイムと共同設計のフォールバックデコード戦略を導入し、追加の遅延を生じさせることなくストリーミング認識の精度を向上させることができます。実験結果は、Uni-ASR が非ストリーミングモードで競争力のある性能を達成するだけでなく、さまざまな遅延制約の下でストリーミング環境でも強い有効性を示すことを示しています。