継承から飽和へ:建築(アーキテクチャ)を意識したMLLM推論加速における視覚的冗長性の進化を解きほぐす

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、高解像度MLLMの推論コスト増大の主因が、膨大な視覚トークンの増加によって生じる視覚的冗長性にあると主張している。
  • 「backbone dependency」の問題として、既存の加速手法(トークンプルーニングや層のスパース化など)が、Vicuna/Mistral系(例:LLaVA)では有効でも、Qwenのような別アーキテクチャへ移すと性能が大きく低下し得る点を指摘している。
  • 打ち切り行列エントロピーを用いて、普遍的な3段階の推論ライフサイクルを見出し、視覚的冗長性をアーキテクチャ非依存のIntrinsic Visual Redundancy(IVR)とアーキテクチャ依存のSecondary Saturation Redundancy(SSR)に分解する。
  • この洞察に基づき、IVRを統一的なプルーニングでまず抑え、続いてSSRは各バックボーンでの現れ方に応じて適応的に扱う枠組みHalfVを提案している。
  • 実験では複数のバックボーンで効率と性能のトレードオフが改善し、特にQwen25-VLで96.8%の性能を4.1×FLOPsの高速化とともに維持し、最先端ベースラインを大きく上回ることを示しており、コードも公開されている。

要旨: 高解像度マルチモーダル大規模言語モデル(MLLM)は、視覚トークンの爆発により推論時の計算コストが過大になりがちです。トークン・プルーニングや層のスパース性といった既存の高速化戦略は、強い「バックボーン依存性」に悩まされます。つまり、Vicuna や Mistral のようなアーキテクチャ(例: LLaVA)ではうまく機能する一方で、Qwen のようなアーキテクチャに移植すると大きな性能低下を引き起こします。これに対処するために、切り詰めた行列エントロピーを活用し、普遍的な三段階の推論ライフサイクルを明らかにします。この枠組みにより、視覚の冗長性を、普遍的な固有視覚冗長性(Intrinsic Visual Redundancy: IVR)と、アーキテクチャ依存の二次飽和冗長性(Secondary Saturation Redundancy: SSR)に切り離します。この洞察に導かれて、本研究では HalfV というフレームワークを提案します。HalfV はまず、統一されたプルーニング戦略により IVR を抑制し、その後、SSR がどのように現れるかに応じて適応的に処理します。実験の結果、HalfV は多様なバックボーンにわたって、より優れた効率と性能のトレードオフを達成することが示されました。特に、Qwen25-VL では 4.1 imes の FLOPs 速度向上を実現しつつ性能を 96.8%保持し、最先端のベースラインを大きく上回ります。コードは https://github.com/civilizwa/HalfV で公開しています。