欠落モダリティ下におけるロバストな偽ニュース検出のための、MLLM内でのモダリティ特化のヘッド単位分析

arXiv cs.CV / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、画像などのモダリティが欠落する状況でも信頼性を検証できるマルチモーダル偽ニュース検出(MFND)を扱い、欠落時に各モダリティの検証能力が失われやすい課題を示している。
  • MLLM内部の注意(attention)ヘッドを分析し、欠落に強い性能を支える「モダリティ臨界ヘッド」がモダリティ特化によって単一モダリティの検証能力を担うことを明らかにしている。
  • その知見に基づき、ヘッドをモダリティごとに割り当てつつ特化を保持する「head-wise modality specialization(低下限のattention制約付き)」と、少数の単一モダリティ注釈で学んだ知識の逸脱を防ぐ「Unimodal Knowledge Retention」を提案している。
  • 実験では、欠落モダリティ下でのロバスト性が向上しつつ、フルのマルチモーダル入力時の性能低下を抑えられることが示されている。

Abstract

マルチモーダル偽ニュース検出(MFND)は、テキストと視覚の証拠を共同で活用することで、ニュースの信頼性を検証することを目的としています。しかし、現実世界でのニュースの拡散は、削除された画像、破損したスクリーンショット、これに類する問題によるモダリティ欠損にしばしば悩まされます。したがって、この状況での頑健な検出には、各モダリティに対して強い検証能力を維持することが必要ですが、低貢献モダリティの学習不足や、希少な単一モーダル注釈の不足により、MFNDではこれが困難です。 この課題に対処するため、欠損モダリティ下で頑健なMFNDを実現するための、マルチモーダル大規模言語モデル(MLLM)内におけるヘッド単位のモダリティ特化(Head-wise Modality Specialization)を提案します。具体的には、まずMLLMにおける注意ヘッドを体系的に調査し、モダリティ欠損下での性能との関係を明らかにします。その結果、モダリティにとって重要なヘッドが、モダリティ特化を通じて単一モーダルの検証能力を運ぶ主要な担い手であることを示します。この観察に基づき、低貢献モダリティの検証能力をより適切に保持するために、これらのヘッドを異なるモダリティへ明示的に割り当て、下限となる注意制約によってその特化を維持する、ヘッド単位の特化メカニズムを導入します。さらに、希少な単一モーダル注釈をより有効に活用するために、これらのヘッドが限られた監督から学習した単一モーダル知識から逸脱するのを防ぐ、単一モーダル知識保持(Unimodal Knowledge Retention)戦略を提案します。実験の結果、提案手法は、欠損モダリティ下での頑健性を向上させつつ、完全なマルチモーダル入力時の性能も維持することが示されました。