ResPrune: Text-Conditioned Subspace Reconstruction for Visual Token Pruning in Large Vision-Language Models
arXiv cs.LG / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- ResPruneは、Large Vision-Language Modelsにおける冗長な視覚トークンを推論時に削減しつつ、重要なトークンを少数に絞って効率化する学習不要(training-free)の手法として提案されています。
- その中核は、視覚トークンの選択を「部分空間の再構成(subspace reconstruction)」問題として定式化し、残差エネルギーに基づく貪欲なサブスペース拡張で元のトークン空間の幾何構造を保つ点にあります。
- さらに、テキスト条件を使ってトークン選択を「指示(instruction)に対するテキスト関連性」でも条件付けし、情報量だけでなくクロスモーダル整合性も高める設計です。
- ResPruneは軽量でモデル非依存(model-agnostic)で、既存のLVLMパイプラインに再学習や大幅なアーキテクチャ変更なしで組み込めるとされています。
- LLaVA-1.5、LLaVA-NeXT、Qwen2.5-VLなど複数のバックボーンで、既存のプルーニング手法より広範なベンチマークで性能面の優位性を示しつつ、計算・メモリ・推論遅延の削減も達成したと報告されています。

