AI Navigate

音声質問応答のための注意誘導型エビデンス根拠付け

arXiv cs.CL / 2026/3/18

📰 ニュースModels & Research

要点

  • Attention-guided Evidence Grounding (AEG) は、音声質問応答のためのエンドツーエンドフレームワークとして導入され、音声大規模言語モデルの内部クロスモーダル注意機構を利用して、モデルの潜在空間内の主要なエビデンスを特定・根拠づける。
  • Learning to Focus on Evidence (LFE) は、クエリに関連するセグメントと無関連な文脈を区別するようにモデルの注意を調整する、教師ありファインチューニングのパラダイムとして提案される。
  • SQuAD、HotpotQA、MuSiQue を対象とした実験は、ハルシネーションの抑制と高い効率性を示し、大規模なカスケードベースライン(Whisper-Large-v3 + Reranker)を上回る。
  • 本手法は、カスケードベースラインと比較して推論レテンシを約62%削減することを実現している。

要約: Spoken Question Answering(Spoken QA)は、音声モダリティのクエリとテキスト知識を効果的に整合させる一方で、連鎖的なASRベースのシステムに内在する遅延と誤情報の伝播を回避するという、難しいモーダル間問題を提示します。本論文では、Attention-guided Evidence Grounding(AEG)と名付けられた新規のエンドツーエンドフレームワークを提案します。これは Speech Large Language Models(SpeechLLMs)の内部クロスモーダルアテンションを活用して、モデルの潜在空間内で重要な根拠を明示的に特定し、根拠づけるものです。事前学習済みモデルにおける注意分布の拡散に対処するため、Learning to Focus on Evidence(LFE)を提案します。これは、クエリに関連するセグメントと無関係な文脈を区別できるよう、モデルのアテンション機構を調整する教師ありファインチューニングのパラダイムです。SQuAD、HotpotQA、MuSiQueを用いた実験は、AEGが幻覚を減らし、強力な効率向上を達成し、大規模なカスケード型ベースライン(Whisper-Large-v3 + Reranker)を上回りつつ、推論待機時間をおおよそ62%短縮することを示しています。