Abstract
マルチモーダル融合では、文脈に応じて矛盾し得る複数の情報源からの情報を統合する必要があります。既存の融合手法は一般に、情報源の信頼性に関する静的な前提に依存しているため、センサの劣化やクラス固有の破損といった状況要因によってモダリティが信頼できなくなった際の衝突を解決する能力が制限されます。そこで本研究では、C^2MF(Context-specfic credibility-aware multimodal fusion framework)を提案します。これは、条件付き確率回路(CPC)を用いて、インスタンスごとの情報源信頼性をモデル化する、文脈に応じた信頼性を意識したマルチモーダル融合の枠組みです。私たちは、条件付き確率回路から正確に計算されるKLダイバージェンスに基づく指標である、Context-Specific Information Credibility(CSIC)によって、インスタンスレベルの信頼性を形式化します。CSICは、従来の静的信頼性推定を特別な場合として一般化し、原理に基づく適応的な信頼性評価を可能にします。モーダリティ間の衝突に対する頑健性を評価するために、Conflictベンチマークを提案します。このベンチマークでは、クラス固有の破損が意図的に異なるモダリティ間の食い違いを誘発します。実験結果は、高ノイズ環境において、C^2MFが静的信頼性ベースラインに比べて最大29%予測精度を向上させることを示しています。一方で、確率回路に基づく融合が持つ解釈可能性の利点は維持されます。