要旨: Transformerベースの視覚言語モデル(VLM)には大きな深さの冗長性が含まれていますが、特定のデコーダ層を除去することの効果は、特に知覚と複数ステップの推論の間に密な結合が必要とされる領域において、いまだ十分に理解されていません。本研究では、領域に応じた活性化の類似度という観点から、構造化デコーダ層プルーニングを検討し、それぞれの層が数学入力と非数学入力に対して表現をどれほど強く変換するかを測定します。これにより、単純な数学対応(math-aware)、非数学対応(non-math-aware)、および混合(mixed)のランキング基準が得られ、対象領域内で入力と出力の活性化が最も変化しない層を特定できます。2つの最先端VLMと、幅広い数学および一般的なマルチモーダルのベンチマークにおいて、我々は一貫した3つのレジーム構造を発見します。すなわち、プルーニング予算が低い場合は、どの層が除去されるかに対する性能の感度が非常に高い;中程度の予算では、構造的な損傷が蓄積するにつれて手法が収束する;高い予算では、構造の連続性が支配的となり、間隔(spacing)を意識した戦略が有利になる、というものです。領域に応じたランキングは、ランキングに敏感なレジームで最も強い安定性を示し、一方でより大きな予算では、構造に着目したベースラインと同等、あるいはそれを上回ります。これらの結果は、VLMにおいて深さが領域固有の振る舞いにどのように寄与するかをより明確にし、重要な数学的あるいは一般的な視覚言語能力を損なうことなくモデルの深さを削減するための、実用的で解釈可能なアプローチを提供します。
ドメインに応じた層選択によってビジョン・言語モデルにおけるプルーニング・レジームを理解する
arXiv cs.CV / 2026/3/24
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ドメインに応じた活性化の類似度を用いて、数学入力と非数学入力に対して表現を最も変えにくいデコーダ層を決定することで、ビジョン・言語モデルにおける構造化デコーダ層プルーニングを研究する。
- 数学に関する層ランキング、非数学に関する層ランキング、混合型の層ランキングという3種類の基準を導入し、対象とするドメイン間で層変換がどのように異なるかに基づいて評価する。
- 数学ベンチマークおよび一般的なマルチモーダル・ベンチマークの2種類に対して、最先端のVLMを2つ用いた実験を行った結果、常に一貫した3つの挙動(レジーム)が観察される。すなわち、プルーニング予算が低いときは高感度、予算が中程度のときは収束、高いときは連続性/間隔の効果が支配的となる。
- 提案するドメインに応じたランキングは、ランキングに敏感なレジームにおける安定性に対して最も有効であることが報告されており、さらにプルーニングがより攻撃的(積極的)な場合には、構造に着目したベースラインと同等、またはそれを上回る性能を示す。これにより、深さを削減するための解釈可能なアプローチが得られる。