ResPrune: Text-Conditioned Subspace Reconstruction for Visual Token Pruning in Large Vision-Language Models
arXiv cs.LG / 3/24/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- ResPruneは、Large Vision-Language Modelsにおける冗長な視覚トークンを推論時に削減しつつ、重要なトークンを少数に絞って効率化する学習不要(training-free)の手法として提案されています。
- その中核は、視覚トークンの選択を「部分空間の再構成(subspace reconstruction)」問題として定式化し、残差エネルギーに基づく貪欲なサブスペース拡張で元のトークン空間の幾何構造を保つ点にあります。
- さらに、テキスト条件を使ってトークン選択を「指示(instruction)に対するテキスト関連性」でも条件付けし、情報量だけでなくクロスモーダル整合性も高める設計です。
- ResPruneは軽量でモデル非依存(model-agnostic)で、既存のLVLMパイプラインに再学習や大幅なアーキテクチャ変更なしで組み込めるとされています。
- LLaVA-1.5、LLaVA-NeXT、Qwen2.5-VLなど複数のバックボーンで、既存のプルーニング手法より広範なベンチマークで性能面の優位性を示しつつ、計算・メモリ・推論遅延の削減も達成したと報告されています。
Related Articles
Speaking of VoxtralResearchVoxtral TTS: A frontier, open-weights text-to-speech model that’s fast, instantly adaptable, and produces lifelike speech for voice agents.
Mistral AI Blog
Why I Switched from Cloud AI to a Dedicated AI Box (And Why You Should Too)
Dev.to
Anyone who has any common sense knows that AI agents in marketing just don’t exist.
Dev.to
How to Use MiMo V2 API for Free in 2026: Complete Guide
Dev.to
The Agent Memory Problem Nobody Solves: A Practical Architecture for Persistent Context
Dev.to