マルチモーダル大規模言語モデルにおける視覚表現の劣化に対する予測的正則化

arXiv cs.CV / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチモーダルLLMが中間層において視覚表現の劣化を経験しうるという診断的な知見を報告している。具体的には、初期の視覚特徴と比べて、グローバル機能やパッチ構造の損失が生じる。
  • 劣化の原因として、単一のテキスト生成目的を最適化することにより生じる「visual sacrifice(視覚の犠牲)」を挙げている。これにより、答えの生成を改善するために視覚の忠実度を妥協する。
  • 著者らは、Predictive Regularization(PRe)を提案している。これは、劣化した中間の視覚特徴を学習させ、初期の視覚特徴を予測することで、主要な視覚属性を保持する。
  • 実験の結果、PReを適用すると視覚劣化が軽減され、視覚と言語の性能において測定可能な改善が得られることが示されており、モーダル間推論と視覚能力の維持の両方が必要であることを支持している。

Abstract

マルチモーダル大規模言語モデル(MLLM)は視覚言語タスクにおいて優れた性能を発揮しますが、内部の視覚的基礎能力に関する言語主導の学習コストは不明なままです。本論文では、蔓延する問題を明らかにするために、詳細な診断解析を行います。それは、MLLMにおける視覚表現の劣化です。具体的には、初期の視覚特徴と比べて、LLMの中間層における視覚表現が、グローバル機能とパッチ構造の両方で劣化を示すことを見出します。この現象は、唯一のテキスト生成目的によって駆動される「視覚の犠牲」に起因すると考えられます。すなわち、モデルは回答生成を最適化するために視覚的な忠実性を犠牲にしてしまうのです。頑健なMLLMには、強力なクロスモーダル推論と中核となる視覚的能力の両方が必要であると主張し、劣化した中間特徴に対して初期の視覚特徴を予測させることで、MLLMの内部表現に内在する視覚的属性を維持することを目的とした「予測的正則化(Predictive Regularization: PRe)」を提案します。大規模な実験により、この視覚劣化の緩和が視覚言語性能を効果的に向上させることが確認され、包括的なマルチモーダル理解のためにMLLM内部に頑健な視覚表現を育てることが極めて重要であることを裏づけています。