URMF: 多模態風刺検出のための不確実性を考慮した頑健なマルチモーダル・フュージョン
arXiv cs.CV / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、各入力(テキスト、画像、もしくはそれらの相互作用)が等しく信頼できると仮定するのではなく、「どのモダリティが信頼できるか」を明示的にモデリングすることで、多模態風刺検出を改善するURMF(Uncertainty-aware Robust Multimodal Fusion)を提案する。
- URMFは、マルチヘッド・クロスアテンションにより視覚的な証拠をテキストへ注入し、その後、融合された意味空間上でマルチヘッド・セルフアテンションを適用して、不一致(incongruity)に基づく推論を洗練させる。
- 蓋然的不確実性(aleatoric uncertainty)をモデリングするために、各モダリティ(および相互作用を考慮した潜在状態)を学習可能なガウス事後分布として表現し、融合の際に信頼できないモダリティを動的に抑制する。
- 学習戦略は、タスクの教師あり学習に加えて、モダリティ優先の正則化、クロスモーダルな分布整合、さらに不確実性に駆動された自己サンプリング型のコントラスト学習を組み合わせる。
- 公開されている多模態風刺検出ベンチマークでの実験により、URMFは精度と頑健性の両面で、強力な単一モダリティ、マルチモーダル、およびMLLMベースのベースラインを上回ることが報告されている。




