低下から回復へ: MLLMsにおけるセグメンテーションの機械的分析

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、視覚エンコーダ、アダプター、LLMを層ごとに線形プロービングし、マルチモーダルLLMにおけるセグメンテーション能力を評価する。
  • 介入ベースのアテンション・ノックアウト分析を用いて、トークン間のアテンションが段階的に視覚表現を洗練し、トークンラベリングを改善するかを検証する。
  • 結果は、アダプターがセグメンテーション表現の低下を引き起こす一方、LLMの層はアテンションを介した洗練によって回復し、正しく分類されたトークンが近傍を導く。
  • 初期の画像トークン回復は因果的アテンションによって制限されるが、画像トークン間の双方向アテンションがこの制約を緩和し、空間的一貫性を改善する。
  • 本研究は、MLLMsがセグメンテーションのために視覚情報を処理する機構的説明を提供し、セグメンテーション機能を備えたモデルの今後の設計に示唆を与える。

要旨: マルチモーダル大規模言語モデル(MLLMs)はピクセルレベルの視覚タスクにますます適用されていますが、その空間理解に関する本質的な能力は未だ十分に理解されていません。 我々は、MLLM全体のパイプライン(ビジョンエンコーダ、アダプター、LLM)に渡る層ごとの線形プロービング評価を通じて、セグメンテーション能力を調査します。 さらに、介入に基づくアテンション・ノックアウト分析を実施して、クロストークン・アテンションが視覚表現を段階的に洗練させるかを検証し、画像トークン間の双方向アテンションが空間的一貫性に与える影響を評価します。 我々の分析は、アダプターがセグメンテーション表現の低下を引き起こす一方で、LLMの層はアテンションによる洗練を介して段階的に回復し、正しく分類されたトークンが誤分類された近傍のトークンを正しいラベルへ導くことを示しています。 初期の画像トークン位置では、この回復は因果アテンションによって制約されますが、画像トークン間の双方向アテンションがそれを緩和します。 これらの知見は、MLLMsが視覚情報をセグメンテーションのために処理する機構的な説明を提供し、将来のセグメンテーション対応モデルの設計に指針を与えます。