統一型マルチモーダル不確実推論
arXiv cs.CV / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テキスト、音声、動画、またはそれらの任意の組み合わせといったモダリティを用いて、仮説に対する較正済み確率推定(calibrated probability estimates)をモデルに出力させることを要するタスク「Unified Multimodal Uncertain Inference (UMUI)」を提案する。
- 先行研究のギャップに取り組み、単一モダリティかつ二値の含意(entailment)にとどまらず、モダリティ横断でのきめ細かな確率的推論を可能にする。
- 著者らは、人手による評価用データセットを作成する。ここでは、音声・視覚・音声視覚(audiovisual)の各設定においてスカラーの確率判断(scalar probability judgments)を扱い、さらに既存のテキストおよび音声のベンチマークでも検証を行う。
- 「CLUE(Calibrated Latent Uncertainty Estimation)」を導入する。これは、自己整合的な教師(teacher)による較正と、分布に基づく信頼度プロービング(confidence probing)を組み合わせて、予測の較正を改善する手法である。
- 結果として、3Bパラメータのモデルが、モダリティ横断で最大32Bパラメータのベースラインと同等、またはそれを上回る性能を示す。




