URMF: 多模態風刺検出のための不確実性を考慮した頑健なマルチモーダル・フュージョン

arXiv cs.CV / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、各入力(テキスト、画像、もしくはそれらの相互作用)が等しく信頼できると仮定するのではなく、「どのモダリティが信頼できるか」を明示的にモデリングすることで、多模態風刺検出を改善するURMF(Uncertainty-aware Robust Multimodal Fusion)を提案する。
  • URMFは、マルチヘッド・クロスアテンションにより視覚的な証拠をテキストへ注入し、その後、融合された意味空間上でマルチヘッド・セルフアテンションを適用して、不一致(incongruity)に基づく推論を洗練させる。
  • 蓋然的不確実性(aleatoric uncertainty)をモデリングするために、各モダリティ(および相互作用を考慮した潜在状態)を学習可能なガウス事後分布として表現し、融合の際に信頼できないモダリティを動的に抑制する。
  • 学習戦略は、タスクの教師あり学習に加えて、モダリティ優先の正則化、クロスモーダルな分布整合、さらに不確実性に駆動された自己サンプリング型のコントラスト学習を組み合わせる。
  • 公開されている多模態風刺検出ベンチマークでの実験により、URMFは精度と頑健性の両面で、強力な単一モダリティ、マルチモーダル、およびMLLMベースのベースラインを上回ることが報告されている。

Abstract

マルチモーダル風刺検出(MSD)は、テキストと画像の間の意味的な不一致(セマンティックな不整合)から、風刺的意図を特定することを目的としています。近年の手法は、クロスモーダルな相互作用や不一致推論によってMSDを改善してきましたが、しばしば全てのモダリティが同程度に信頼できることを前提としています。しかし現実のソーシャルメディアでは、テキスト内容が曖昧である可能性があり、また視覚内容が弱く関連している、あるいは無関係である場合すらあります。その結果、決定論的な融合(deterministic fusion)によってノイズの多い証拠が導入され、頑健な推論が弱まってしまいます。そこで本研究では、相互作用と融合の過程でモダリティの信頼性を明示的にモデル化する、統一的フレームワークである不確実性を考慮した頑健マルチモーダル融合(URMF)を提案します。URMFはまず、多頭クロス注意(multi-head cross-attention)を用いて視覚的証拠をテキスト表現へ注入し、続いて融合された意味空間上で多頭自己注意(multi-head self-attention)を行うことで、不一致を意識した推論を強化します。その後、テキスト、画像、そして相互作用を考慮した潜在表現に対して、各モダリティを学習可能なガウス事後分布としてパラメータ化することにより、統一的なモダリティ内(unimodal)のアレアトリック不確実性モデリングを実行します。推定された不確実性はさらに、融合中のモダリティ寄与を動的に調整するために用いられ、不信頼なモダリティを抑制することで、より頑健な結合表現を得ます。加えて、タスクの教師あり監督、モダリティ事前(prior)正則化、クロスモーダル分布整合、そして不確実性に基づく自己サンプリングコントラスト学習を統合した共同学習目的関数を設計します。公開MSDベンチマークでの実験により、URMFは強力な単一モーダル、マルチモーダル、およびMLLMベースのベースラインを一貫して上回り、精度と頑健性の両方を改善するための不確実性を考慮した融合の有効性が示されます。