要旨: 近年の音声対応の大規模言語モデル(ALLM)は、多様な音声理解および推論タスクにわたって強力な能力を示してきましたが、それでもなお、幻覚(hallucination)や過度に自信のある出力を頻繁に生成してしまいます。不確実性推定はテキストのみのLLMに対して広く研究されてきた一方で、ALLMに対してはほとんど未開拓です。音声に条件付けされた生成では、知覚的な曖昧さやモーダル間の基盤付け(cross-modal grounding)といった追加の課題が生じるためです。本研究では、ALLMにおける不確実性推定の最初の体系的な実証的研究を提示します。一般的な音声理解、推論、幻覚検出、答えのない質問応答(unanswerable question answering)にまたがる、複数のモデルと多様な評価設定において、予測エントロピー、長さ正規化エントロピー、セマンティック・エントロピー、離散セマンティック・エントロピー、P(True)を含む5つの代表的手法をベンチマークします。結果から、2つの重要な知見が得られました。第一に、セマンティックレベルおよび検証ベースの手法は、一般的な音声推論ベンチマークにおいて一貫してトークンレベルのベースラインを上回ります。第二に、信頼性(trustworthiness)志向のベンチマークでは、不確実性手法の相対的な有効性が、モデルおよびベンチマークに大きく依存する度合いが顕著に高まります。これは、一般的な推論設定から導かれた結論が、幻覚および答えのない質問のシナリオへ単純には転用できないことを示しています。さらに、不確実性に基づく適応的推論を、潜在的な下流応用として探究します。本研究が、信頼できる不確実性を考慮した音声言語システムに関する今後の研究の基盤となることを期待しています。
不確実性を歩き抜ける:音声対応型大規模言語モデルにおける不確実性推定の実証研究
arXiv cs.CL / 2026/4/29
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究は、音声に条件付けされた生成により知覚的な曖昧さやクロスモーダルな位置付けの難しさが生じ得ることを背景に、音声対応型大規模言語モデル(ALLM)に対する不確実性推定の体系的な実証研究として初めて行われた。
- predictive entropy、length-normalized entropy、semantic entropy、discrete semantic entropy、P(True) の5手法を、複数のALLMモデルと、一般的な音声理解・推論、幻覚検出、回答不能QAを含む多様な評価設定でベンチマークした。
- 結果として、セマンティック・レベルおよび検証ベースの不確実性手法は、一般的な音声推論ベンチマークではトークン・レベルのエントロピーベースラインを一貫して上回ることが示された。
- 信頼性重視のベンチマーク(幻覚検出や回答不能QA)では、不確実性手法の相対的有効性がモデルやベンチマークにより大きく左右され、一般タスクでの知見が信頼シーンに単純には転用できないことを示唆している。
- さらに、下流応用として不確実性に基づく適応的推論(adaptive inference)を検討し、信頼できる不確実性を意識した音声言語システムの研究基盤になることを目指している。



