継承から飽和へ：建築（アーキテクチャ）を意識したMLLM推論加速における視覚的冗長性の進化を解きほぐす

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、高解像度MLLMの推論コスト増大の主因が、膨大な視覚トークンの増加によって生じる視覚的冗長性にあると主張している。
「backbone dependency」の問題として、既存の加速手法（トークンプルーニングや層のスパース化など）が、Vicuna/Mistral系（例：LLaVA）では有効でも、Qwenのような別アーキテクチャへ移すと性能が大きく低下し得る点を指摘している。
打ち切り行列エントロピーを用いて、普遍的な3段階の推論ライフサイクルを見出し、視覚的冗長性をアーキテクチャ非依存のIntrinsic Visual Redundancy（IVR）とアーキテクチャ依存のSecondary Saturation Redundancy（SSR）に分解する。
この洞察に基づき、IVRを統一的なプルーニングでまず抑え、続いてSSRは各バックボーンでの現れ方に応じて適応的に扱う枠組みHalfVを提案している。
実験では複数のバックボーンで効率と性能のトレードオフが改善し、特にQwen25-VLで96.8%の性能を4.1×FLOPsの高速化とともに維持し、最先端ベースラインを大きく上回ることを示しており、コードも公開されている。

要旨: 高解像度マルチモーダル大規模言語モデル（MLLM）は、視覚トークンの爆発により推論時の計算コストが過大になりがちです。トークン・プルーニングや層のスパース性といった既存の高速化戦略は、強い「バックボーン依存性」に悩まされます。つまり、Vicuna や Mistral のようなアーキテクチャ（例: LLaVA）ではうまく機能する一方で、Qwen のようなアーキテクチャに移植すると大きな性能低下を引き起こします。これに対処するために、切り詰めた行列エントロピーを活用し、普遍的な三段階の推論ライフサイクルを明らかにします。この枠組みにより、視覚の冗長性を、普遍的な固有視覚冗長性（Intrinsic Visual Redundancy: IVR）と、アーキテクチャ依存の二次飽和冗長性（Secondary Saturation Redundancy: SSR）に切り離します。この洞察に導かれて、本研究では HalfV というフレームワークを提案します。HalfV はまず、統一されたプルーニング戦略により IVR を抑制し、その後、SSR がどのように現れるかに応じて適応的に処理します。実験の結果、HalfV は多様なバックボーンにわたって、より優れた効率と性能のトレードオフを達成することが示されました。特に、Qwen25-VL では 4.1 $imes$ の FLOPs 速度向上を実現しつつ性能を 96.8%保持し、最先端のベースラインを大きく上回ります。コードは https://github.com/civilizwa/HalfV で公開しています。