大規模ビジョン言語モデルの効率的推論

arXiv cs.LG / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、大規模ビジョン言語モデル（LVLM）の導入は、特に高解像度入力によって生じる多数の視覚トークンに起因する二次的な注意（attention）コストを中心に、高い計算コストによってボトルネック化されることを説明している。
状況に応じた推論加速手法についてのサーベイ形式のタクソノミーを提示し、それらを4つの次元、すなわち視覚トークン圧縮、メモリ管理とサービング、効率的なモデルアーキテクチャ、先進的なデコーディング戦略に整理している。
著者らは、既存の最適化手法を普遍的に適用できるものとして提示するのではなく、それぞれの限界とトレードオフを批判的に評価している。
本研究では、実世界の導入に向けてより効率的なマルチモーダルシステムを構築するための今後の取り組みを導くことを意図した、未解決の研究課題を強調している。

Abstract

大規模視覚言語モデル（LVLM）は目覚ましいマルチモーダル推論能力を示しているものの、そのスケーラビリティと展開は莫大な計算資源の要求によって制約されています。特に、高解像度入力データから生じる大量の視覚トークンは、注意機構の二次的な計算量によって状況をさらに悪化させます。これらの課題に対処するため、研究コミュニティは複数の最適化フレームワークを開発してきました。本論文は、LVLM推論を高速化するための現状における最先端技術の包括的な調査を提示します。既存の最適化フレームワークを、視覚トークン圧縮、メモリ管理とサービング、効率的なアーキテクチャ設計、高度なデコーディング戦略という4つの主要な次元に分類する体系的なタクソノミーを導入します。さらに、これらの現在の手法の限界を批判的に検討し、効率的なマルチモーダルシステムに関する今後の研究の方向性を触発する重要な未解決課題を特定します。