統一型マルチモーダル不確実推論

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキスト、音声、動画、またはそれらの任意の組み合わせといったモダリティを用いて、仮説に対する較正済み確率推定（calibrated probability estimates）をモデルに出力させることを要するタスク「Unified Multimodal Uncertain Inference (UMUI)」を提案する。
先行研究のギャップに取り組み、単一モダリティかつ二値の含意（entailment）にとどまらず、モダリティ横断でのきめ細かな確率的推論を可能にする。
著者らは、人手による評価用データセットを作成する。ここでは、音声・視覚・音声視覚（audiovisual）の各設定においてスカラーの確率判断（scalar probability judgments）を扱い、さらに既存のテキストおよび音声のベンチマークでも検証を行う。
「CLUE（Calibrated Latent Uncertainty Estimation）」を導入する。これは、自己整合的な教師（teacher）による較正と、分布に基づく信頼度プロービング（confidence probing）を組み合わせて、予測の較正を改善する手法である。
結果として、3Bパラメータのモデルが、モダリティ横断で最大32Bパラメータのベースラインと同等、またはそれを上回る性能を示す。

Abstract

我々は、統一マルチモーダル不確実推論（Unified Multimodal Uncertain Inference; UMUI）を導入する。これは、テキスト、音声、映像にまたがるマルチモーダル推論タスクであり、モデルは、いかなるモダリティ、またはそれらの組み合わせにおいても、前提に条件づけられた仮説に対する較正済み確率推定値（calibrated probability estimates）を生成しなければならない。不確実推論はテキストにおいて検討されてきたものの、他のモダリティへの拡張は単一モダリティにおける二値の含意判断に限られており、他のモダリティ内またはモダリティ間での、きめ細かな確率的推論のための枠組みが存在しなかった。これに対処するため、我々は音声・視覚・視聴覚の各設定においてスカラーの確率判断を行った人手アノテーション評価セットを構築し、さらに既存のテキストおよび音声ベンチマークでも評価する。自己整合的な教師による較正（self-consistent teacher calibration）と、分布に基づく信頼度プロービング（distribution-based confidence probing）を組み合わせて較正済み予測を生成する CLUE（Calibrated Latent Uncertainty Estimation）を提案する。我々は、提案手法の3Bパラメータモデルが、全モダリティにおいて、32Bパラメータまでのベースラインと同等、あるいはそれを上回る性能を達成することを示す。