AI Navigate

マルチモーダル・トランスフォーマーにおける特徴レベルの相互作用説明

arXiv cs.LG / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 特徴レベルの I2MoE(FL-I2MoE)を提案。凍結済みの事前学習エンコーダーからのトークン/パッチ列に作用する構造化された Mixture-of-Experts(MoE)レイヤーで、特徴レベルでユニークな情報、協働的な情報、冗長な情報を分離する。
  • 専門家ごと説明パイプラインを提案し、アトリビューションとトップK%マスキングを組み合わせて忠実性を評価する。さらにモンテカルロ相互作用プローブを導入し、Shapley相互作用指数(SII)と冗長ギャップ・スコアを含めてクロスモーダル相互作用を定量化する。
  • MMIMDb、ENRICO、MMHS150K のデータセットにおいて、FL-I2MoE は同じエンコーダを用いた密結合型 Transformer よりも、相互作用特異的で集中した重要度パターンを生み出す。
  • SII および冗長ギャップ・スコアでランク付けされたペアを、同じ予算内でランダムマスキングと比較して除去すると性能が劣化することを因果的に示しており、特定された相互作用が因果的に関連していることを示唆します。

要旨: マルチモーダル変換器は、異なるモダリティが協調して意思決定を支える方法を明示せずに予測を出すことがよくあります。既存のマルチモーダル説明可能AI(MXAI)手法の多くは、単一モダリティの顕著性をマルチモーダルのバックボーンに拡張し、各モダリティ内の重要なトークンやパッチを強調しますが、クロスモーダルな特徴ペアが補完的な証拠(シナジー)を提供するのか、あるいは信頼できるバックアップとしての冗長性を示すのかを特定することは稀です。私たちは、凍結された事前訓練済みエンコーダからのトークン/パッチ列上で直接動作し、特徴レベルで固有・相乗・冗長な証拠を明示的に分離する構造化Mixture-of-Experts層であるFeature-level I2MoE(FL-I2MoE)を提案します。さらに、信頼性を評価するためにアトリビューションとトップK%マスキングを組み合わせた専門家ごとの説明パイプラインを開発し、対ペアの挙動を定量化するモンテカルロ相互作用プローブを導入します。相乗的なペアを評価するShapley Interaction Index(SII)と、代替可能(冗長)ペアを捉える冗長性ギャップスコアです。3つのベンチマーク(MMIMDb、ENRICO、MMHS150K)にわたり、FL-I2MoEは同じエンコーダを用いた密集型Transformerよりも、相互作用特異的で集中した重要度パターンを生み出します。最後に、ペアレベルのマスキングは、SIIまたは冗長性ギャップでランク付けされたペアを除去する方が、同じ予算内でランダムに選択したペアをマスクするよりも性能を低下させることを示しており、特定された相互作用が因果的に関連していることを裏付けています。)