ピクセルと語をつなぐ：マスク対応ローカルセマンティック融合によるマルチモーダル・メディア検証

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、既存のマルチモーダル・ミスインフォメーション検証手法が「特徴の希釈（feature dilution）」によって失敗すると主張する。すなわち、ホリスティックな融合が平均化によって微細な局所的セマンティックの不整合を相殺してしまう。
そこで提案するのが MaLSF（Mask-aware Local Semantic Fusion）である。マスク—ラベル対を意味のアンカー（セマンティック・アンカー）として用い、画像領域（「ピクセル」）とテキスト上の意味（「語」）を能動的に結び付ける。
MaLSF は、双方向クロスモーダル検証（BCV）モジュールを導入する。Text-as-Query（テキストをクエリとして）とImage-as-Query（画像をクエリとして）の並列クエリ・ストリームを用いて、クロスモーダル間の矛盾を明示的に特定する。
さらに、階層的セマンティック集約（HSA）モジュールを追加し、複数の粒度で得られる矛盾の手がかり（conflict signals）を統合することで、タスクに応じた推論を可能にする。
本アプローチでは複数のパーサを用いて、きめ細かなマスク—ラベル対のアンカーを抽出し、DGM4 とマルチモーダル偽ニュース検出において最先端の結果を報告する。加えて、アブレーションや可視化によって裏付けを示す。

概要: マルチモーダルな誤情報がより洗練されるにつれ、その検出と根拠付けは極めて重要になっています。しかし、受動的な全体的フュージョンに依存する現行のマルチモーダル検証手法では、巧妙な誤情報に対応することが困難です。「特徴の希薄化（feature dilution）」のために、グローバルな整合は微細な局所的な意味の不整合を平均化してしまい、結果として本来見つけるべき衝突そのものを実質的に覆い隠してしまいます。そこで本研究では、MaLSF（Mask-aware Local Semantic Fusion）という新しい枠組みを提案します。これは、人間の認知における相互参照（クロスリファレンス）を模倣して、能動的で双方向の検証へとパラダイムを転換します。MaLSFは、意味的アンカーとしてマスク-ラベル対を用い、ピクセルと語を橋渡しします。中核となる仕組みは、2つの革新を備えています。1) 双方向クロスモーダル検証（BCV）モジュール：尋問者として機能し、並列のクエリ・ストリーム（Text-as-QueryおよびImage-as-Query）を用いて、衝突箇所を明示的に特定します。2) 階層的意味集約（HSA）モジュール：複数粒度の衝突シグナルを、タスク固有の推論に向けて賢く集約します。さらに、微細なマスク-ラベル対を抽出するために、多様なマスク-ラベル対抽出パーサの集合を導入します。MaLSFは、DGM4およびマルチモーダルな偽ニュース検出という両方のタスクにおいて最先端の性能を達成します。広範なアブレーション研究と可視化の結果により、その有効性と解釈可能性もさらに検証されます。