Compose と Fuse:マルチモーダル推論における基礎的ボトルネックを再考する

arXiv cs.CL / 2026/5/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチモーダル大規模言語モデル(MLLM)におけるクロスモーダル推論が未解明な点を指摘し、追加モダリティが「役立つ/害する」条件を説明できるような、統制された評価枠組みとモデル内部の分析が不足していることを問題としています。
  • 事実が各モダリティにどう分配され、どのように論理的に結合されるかに基づいて、マルチモーダル推論を6つの相互作用パターンに分類するロジックに基づく評価フレームワークを提案します。
  • 実験的には、追加モダリティは独立かつ十分な推論経路を提供する場合にのみ推論が向上し、冗長な情報や連鎖的な含意(エンタイメント)の支援は性能低下につながる傾向が示されます。
  • 主要なボトルネックとして「タスク合成(1パスで認識と推論を同時に実行できない)」と「フュージョン(早期統合がバイアスを生む)」の2つを特定し、2段階プロンプトにより前者を改善できることを示します。
  • さらに、注意(attention)が事実の有用性を適切に符号化できていない可能性を示しつつ、融合の初期段階での注意を弱めることで推論が改善することから、フュージョン制御や合成を意識した学習が有望だと結論づけています。