マルチモーダル大規模言語モデルにおける視覚表現の劣化に対する予測的正則化
arXiv cs.CV / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダルLLMが中間層において視覚表現の劣化を経験しうるという診断的な知見を報告している。具体的には、初期の視覚特徴と比べて、グローバル機能やパッチ構造の損失が生じる。
- 劣化の原因として、単一のテキスト生成目的を最適化することにより生じる「visual sacrifice(視覚の犠牲)」を挙げている。これにより、答えの生成を改善するために視覚の忠実度を妥協する。
- 著者らは、Predictive Regularization(PRe)を提案している。これは、劣化した中間の視覚特徴を学習させ、初期の視覚特徴を予測することで、主要な視覚属性を保持する。
- 実験の結果、PReを適用すると視覚劣化が軽減され、視覚と言語の性能において測定可能な改善が得られることが示されており、モーダル間推論と視覚能力の維持の両方が必要であることを支持している。