概要: マルチモーダル大規模言語モデル(MLLM)は一般的な視覚理解において印象的な能力を示している一方で、微小な物体の識別や微妙な視覚的関係の見極めを要する微細粒度の知覚タスクでは頻繁に力を発揮できません。我々はこの制約を「視覚減衰(Visual Attenuation)」に起因すると考えています。これは、ネットワーク伝播の過程で、疎な微細粒度の視覚信号が支配的なテキストトークンによって早期に抑制または希釈され、その結果、深いレベルでの意思決定プロセスにおいて「焦点の喪失(loss of focus)」が生じる現象です。既存の入力中心の解決策は、この情報損失の本質的なメカニズムを根本的に反転させることには失敗しています。そこで、この課題に対処するために、変分情報フロー(Variational Information Flow: VIF)フレームワークを提案します。確率論的な視点を採用し、VIFは条件付き変分オートエンコーダ(Conditional Variational Autoencoder: CVAE)を用いて、質問-回答ペアに関連する視覚的顕著性を潜在分布としてモデル化します。プラグアンドプレイ型のモジュールとして、VIFは既存のアーキテクチャに統合可能です。一般的VQA、微細粒度の知覚、視覚的グラウンディングを含む多様なベンチマークにわたる大規模な評価により、VIFが先行手法に対して競争力のある改善をもたらし、MLLMの微細粒度知覚を強化する有効性が検証されることを示します。
減衰から注意へ:きめ細かな視覚認識のための変分情報フロー操作
arXiv cs.CV / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多モーダル大規模言語モデルが微細な視覚タスクでしばしば性能を十分に発揮できないのは、「Visual Attenuation(視覚の減衰)」によるものであると主張する。これは、ネットワークの伝播過程で、支配的なテキストトークンによって微小な視覚手がかりが抑制されたり希釈されたりする現象である。
- 質問-回答に関連する視覚的サリエンシーを潜在分布としてモデル化するために、条件付き変分オートエンコーダ(CVAE)を用いた、変分情報フロー(VIF)フレームワークを提案する。
- VIFは、既存のMLLMアーキテクチャにプラグアンドプレイで統合できるよう設計されており、視覚的な希釈によって失われた情報を回復することを目的としている。
- General VQA、きめ細かな知覚、視覚的グラウンディングのベンチマークにわたる実験では、先行手法に対して競争力のある改善が示され、このアプローチの有効性が裏付けられる。




