要旨: 音声入力への拡張にもかかわらず、自動音声認識(ASR)において大規模言語モデル(LLM)が持つ豊かな知識と文脈理解を効果的に活用することは自明ではありません。なぜなら、この課題は主に直接の音声からテキストへの写像を行うことが中心だからです。そこで本論文では、チェイン・オブ・ソートASR(CoT-ASR)を提案します。これは、推論の連鎖を構築することで、LLMがまず入力音声を分析し、文脈に基づく分析を生成できるようにし、それによって生成能力を最大限に活用します。この文脈推論によって、CoT-ASRはより情報に基づいた音声認識を行い、推論と文字起こしの両方を単一パスで完了します。さらに、CoT-ASRは自然にユーザー主導の文字起こしをサポートします。推論を自己生成するように設計されている一方で、ユーザーが提供した文脈を文字起こしの指針としてシームレスに取り込むこともでき、ASRの機能をさらに拡張します。モダリティ間のギャップを縮小するために、本論文ではCTC誘導モダリティ・アダプタを導入します。これは、CTCの非ブランク・トークン確率を用いてLLM埋め込みに重み付けし、音声エンコーダ出力をLLMのテキスト潜在空間へ効率的に整合させます。実験の結果、標準的なLLMベースのASRと比較して、CoT-ASRは単語誤り率(WER)で相対的に8.7%の低減、固有表現誤り率(EER)で16.9%の低減を達成しました。
Speech LLMs are Contextual Reasoning Transcribers
arXiv cs.CL / 2026/4/3
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、連鎖的思考に基づくASR(CoT-ASR)を提案する。これは、音声入力をLLMに分析させ、文字起こしに先立って文脈に即した推論を生成することで、音声認識においてLLMの知識をより効果的に活用することを目指す。
- CoT-ASRは推論と文字起こしの両方を1回のパスで実行し、ユーザーが提供した文脈を、モデル自身が生成した推論と併せて取り込むことで、ユーザー主導の文字起こしにも対応する。
- 音声対テキストのモダリティギャップを縮小するために、CTC非ブランクトークンの確率を用いて、音声エンコーダの出力をLLMのテキスト潜在空間へ整合させる「CTCガイド付きモダリティアダプタ」を提案する。
- 実験結果では、CoT-ASRは標準的なLLMベースASRに比べて、単語誤り率(WER)を8.7%低減し、エンティティ誤り率(EER)を16.9%低減することが報告されている。




