SENS-ASR: Streaming Automatic Speech Recognitionのためのニューラル・トランスデューサにおける意味埋め込みの注入

arXiv cs.AI / 2026/3/12

💬 オピニオンModels & Research

要点

  • SENS-ASRは、過去のフレーム埋め込みからの意味情報をストリーミングニューラル・トランスデューサに注入して、低遅延制約下での文字起こしの精度を向上させる。
  • コンテキストモジュールは、過去の埋め込みから意味的な手がかりを抽出し、このモジュールは、訓練データセットの転写でファインチューニングされた文埋め込み言語モデルからの知識蒸留を用いて訓練される。
  • 標準データセットでの実験は、SENS-ASRが小チャンクのストリーミングシナリオで単語誤り率(WER)を大幅に改善することを示している。
  • 本研究は、ストリーミングASRにおける将来文脈の制限という核心的課題に対処するため、意味情報を活用して文脈喪失を補う手法を提案します。
要旨: 多くの自動音声認識(ASR)アプリケーションでは、音声データのストリーミング処理が必要です。ストリーミングモードでは、ASRシステムは入力ストリームが完全でなくても転写を開始する必要があり、すなわち将来の文脈が制限された(あるいは全くない)状態で入力ストリームを処理しなければなりません。オフラインモードと比較して、将来の文脈のこの削減は、特に低遅延制約下でのストリーミングASRシステムの性能を低下させます。本研究では、音響情報を意味情報で補うことによってストリーミングASRの転写品質を向上させるアプローチであるSENS-ASRを提示します。この意味情報は、利用可能な過去のフレーム埋め込みから抽出され、コンテキストモジュールによって処理されます。このモジュールは、訓練データセットの転写でファインチューニングされた文埋め込み言語モデルからの知識蒸留を使用して訓練されます。標準データセットでの実験は、SENS-ASRが小さなチャンクのストリーミングシナリオで単語誤り率を著しく改善することを示しています。