Uni-ASR: 非ストリーミングおよびストリーミング自動音声認識のための統一LLMベースアーキテクチャ

arXiv cs.CL / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

Uni-ASR は、アーキテクチャの変更を必要とせず、非ストリーミングとストリーミングの両方の自動音声認識をサポートする統一LLMベースアーキテクチャを導入します。
遅延シナリオ全体にわたるデプロイの柔軟性を高めるため、2つの認識モード間をシームレスに切り替えられる共訓練パラダイムを提示します。
コンテキスト認識トレーニングパラダイムと共同設計のフォールバックデコード戦略を提案し、追加遅延を生じさせることなくストリーミングの精度を向上させます。
実験結果は、非ストリーミングで競争力のある性能と、さまざまな遅延制約下でのストリーミングの高い有効性を示しています。

要旨: 自動音声認識（ASR）と大規模言語モデル（LLM）の深い統合は精度を大幅に向上させましたが、低遅延のストリーミング環境におけるこのようなシステムのデプロイは依然として難題です。本論文では、非ストリーミングとストリーミングの両方の音声認識機能を統合するLLMベースの統一フレームワークである Uni-ASR を提案します。アーキテクチャの変更を要さず、2つの認識モード間をシームレスに移行できる共訓練パラダイムを提案します。さらに、コンテキスト認識トレーニングパラダイムと共同設計のフォールバックデコード戦略を導入し、追加の遅延を生じさせることなくストリーミング認識の精度を向上させることができます。実験結果は、Uni-ASR が非ストリーミングモードで競争力のある性能を達成するだけでなく、さまざまな遅延制約の下でストリーミング環境でも強い有効性を示すことを示しています。

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

note

AI達の革命

note

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

note

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

note

Uni-ASR: 非ストリーミングおよびストリーミング自動音声認識のための統一LLMベースアーキテクチャ

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒