ID-Selection: 効率的なLVLM推論のための重要度・多様性に基づく視覚トークン選択
arXiv cs.CV / 2026/4/8
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、典型的な「冗長性 vs. 情報損失」のトレードオフを回避しつつLVLM推論を加速する、重要度と多様性に基づく視覚トークン選択戦略「ID-Selection」を提案する。
- ID-Selectionは各視覚トークンに重要度スコアを割り当て、その後、類似したトークンのスコアを抑制しながら高スコアのトークンを反復的に選択して多様性を強制する。
- 5つのLVLMバックボーンと16のベンチマークにわたる実験により、ID-Selectionは効率と精度の両方を改善し、特に極端な視覚トークン削減率のときに最大の効果が得られる。
- 例えばLLaVA-1.5-7Bでは、視覚トークンの97.2%を削除し16トークンを保持し、推論FLOPsを97%以上削減しつつ、追加学習なしで元の性能の91.8%を維持する。



