大規模ビジョン言語モデルに対する包括的な情報分解分析

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、部分的情報分解（PID）を用いて、冗長・固有・相乗的な構成要素からビジョン言語モデルが意思決定に必要な情報をどのように導出するかを定量化する、モデル非依存の枠組みを提案する。
スケーラブルな推定器を用いて、4つのデータセットにわたって26のLVLMをプロファイリングし、モデル／タスク間での「情報スペクトル」の広がり、層ごとの情報ダイナミクスによる深さ、さらに学習時間を通じた変化を分析する。
本研究は、タスクに関して「相乗（シナジー）駆動型」と「知識駆動型」の2つのレジーム、および回答の形成における「融合（フュージョン）中心型」と「言語中心型」という2つの安定したファミリーレベルの戦略を特定する。
層ごとの処理には一貫した3相のパターンがあることを見出し、多モーダル融合が学習される重要な段階は、視覚インストラクション・チューニングであると結論づける。
著者らは、この定量的アプローチが精度のみの評価を超えて、次世代LVLMの分析や設計に役立てられると主張しており、コード／データは公開リポジトリで提供されている。

Abstract

大規模視覚言語モデル（LVLMs）は目覚ましい性能を達成していますが、その内部の意思決定プロセスは不透明なままであり、成功が真のマルチモーダル融合によるものなのか、それとも単一モダリティの事前知識への依存によるものなのかを判断しにくい状況です。帰属のギャップに対処するために、本研究では部分情報分解（PID）を用いた新しい枠組みを提案し、LVLMの「情報スペクトル」を定量的に測定します。具体的には、モデルの意思決定に関連する情報を、冗長成分、固有成分、相乗成分に分解します。現代のLVLM出力に適応したスケーラブルな推定器を用いることで、モデルに依存しない本手法は、4つのデータセットに対して26のLVLMを、3つの次元――幅（モデル間およびタスク間）、深さ（層ごとの情報ダイナミクス）、時間（学習中のダイナミクス）――の観点からプロファイルします。解析の結果、2つの主要な知見が得られました：（i）2つのタスクのレジーム（相乗駆動型 vs. 知識駆動型）、および（ii）2つの安定した、対照的なファミリー単位の戦略（融合中心型 vs. 言語中心型）です。さらに、層ごとの処理において一貫した3相（スリーフェーズ）のパターンを見出し、融合が学習される鍵となる段階が「視覚指示チューニング」であることを突き止めました。これらの貢献は、精度のみの評価を超えた定量的な視点を提供し、次世代のLVLMを解析・設計するための洞察をもたらします。コードとデータは https://github.com/RiiShin/pid-lvlm-analysis で公開されています。