SENS-ASR: Streaming Automatic Speech Recognitionのためのニューラル・トランスデューサにおける意味埋め込みの注入

arXiv cs.AI / 2026/3/12

💬 オピニオンModels & Research

共有:

要点

SENS-ASRは、過去のフレーム埋め込みからの意味情報をストリーミングニューラル・トランスデューサに注入して、低遅延制約下での文字起こしの精度を向上させる。
コンテキストモジュールは、過去の埋め込みから意味的な手がかりを抽出し、このモジュールは、訓練データセットの転写でファインチューニングされた文埋め込み言語モデルからの知識蒸留を用いて訓練される。
標準データセットでの実験は、SENS-ASRが小チャンクのストリーミングシナリオで単語誤り率（WER）を大幅に改善することを示している。
本研究は、ストリーミングASRにおける将来文脈の制限という核心的課題に対処するため、意味情報を活用して文脈喪失を補う手法を提案します。

要旨: 多くの自動音声認識（ASR）アプリケーションでは、音声データのストリーミング処理が必要です。ストリーミングモードでは、ASRシステムは入力ストリームが完全でなくても転写を開始する必要があり、すなわち将来の文脈が制限された（あるいは全くない）状態で入力ストリームを処理しなければなりません。オフラインモードと比較して、将来の文脈のこの削減は、特に低遅延制約下でのストリーミングASRシステムの性能を低下させます。本研究では、音響情報を意味情報で補うことによってストリーミングASRの転写品質を向上させるアプローチであるSENS-ASRを提示します。この意味情報は、利用可能な過去のフレーム埋め込みから抽出され、コンテキストモジュールによって処理されます。このモジュールは、訓練データセットの転写でファインチューニングされた文埋め込み言語モデルからの知識蒸留を使用して訓練されます。標準データセットでの実験は、SENS-ASRが小さなチャンクのストリーミングシナリオで単語誤り率を著しく改善することを示しています。

カーパシーのオートリサーチ：エージェント型コーディングスキルの向上

Dev.to

[D] 他のPhD学生も、準備不足だと感じていて、ハードルが低すぎると思いますか？

Reddit r/MachineLearning

生成AIの価値と導入に関する調査

Reddit r/artificial

2026 LLMベンチマーク対決：Gemini vs Claude vs GPT vs 中国のオープンソース

Dev.to

OpenAIのCEOサム・アルトマン氏、「非常に強力」なモデルを社内で示唆—「経済を大きく加速」

THE DECODER

SENS-ASR: Streaming Automatic Speech Recognitionのためのニューラル・トランスデューサにおける意味埋め込みの注入

要点

関連記事

カーパシーのオートリサーチ：エージェント型コーディングスキルの向上

[D] 他のPhD学生も、準備不足だと感じていて、ハードルが低すぎると思いますか？

生成AIの価値と導入に関する調査

2026 LLMベンチマーク対決：Gemini vs Claude vs GPT vs 中国のオープンソース

OpenAIのCEOサム・アルトマン氏、「非常に強力」なモデルを社内で示唆—「経済を大きく加速」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer