要約: Spoken Question Answering(Spoken QA)は、音声モダリティのクエリとテキスト知識を効果的に整合させる一方で、連鎖的なASRベースのシステムに内在する遅延と誤情報の伝播を回避するという、難しいモーダル間問題を提示します。本論文では、Attention-guided Evidence Grounding(AEG)と名付けられた新規のエンドツーエンドフレームワークを提案します。これは Speech Large Language Models(SpeechLLMs)の内部クロスモーダルアテンションを活用して、モデルの潜在空間内で重要な根拠を明示的に特定し、根拠づけるものです。事前学習済みモデルにおける注意分布の拡散に対処するため、Learning to Focus on Evidence(LFE)を提案します。これは、クエリに関連するセグメントと無関係な文脈を区別できるよう、モデルのアテンション機構を調整する教師ありファインチューニングのパラダイムです。SQuAD、HotpotQA、MuSiQueを用いた実験は、AEGが幻覚を減らし、強力な効率向上を達成し、大規模なカスケード型ベースライン(Whisper-Large-v3 + Reranker)を上回りつつ、推論待機時間をおおよそ62%短縮することを示しています。
音声質問応答のための注意誘導型エビデンス根拠付け
arXiv cs.CL / 2026/3/18
📰 ニュースModels & Research
要点
- Attention-guided Evidence Grounding (AEG) は、音声質問応答のためのエンドツーエンドフレームワークとして導入され、音声大規模言語モデルの内部クロスモーダル注意機構を利用して、モデルの潜在空間内の主要なエビデンスを特定・根拠づける。
- Learning to Focus on Evidence (LFE) は、クエリに関連するセグメントと無関連な文脈を区別するようにモデルの注意を調整する、教師ありファインチューニングのパラダイムとして提案される。
- SQuAD、HotpotQA、MuSiQue を対象とした実験は、ハルシネーションの抑制と高い効率性を示し、大規模なカスケードベースライン(Whisper-Large-v3 + Reranker)を上回る。
- 本手法は、カスケードベースラインと比較して推論レテンシを約62%削減することを実現している。
関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA
会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ
Reddit r/LocalLLaMA
[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用
Reddit r/MachineLearning