VisPCO:予算対応のパレートフロンティア学習による視覚トークン削減設定の最適化(視覚言語モデル)
arXiv cs.CV / 2026/4/17
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚言語モデルにおける高解像度画像や動画フレーム処理の計算量が二次的に増える課題に対し、削減設定を固定せずに最適化することで対処します。
- 提案手法VisPCOは、視覚トークン削減を予算に応じたパレートフロンティア最適化問題として定式化し、連続緩和とストレートスルー推定器を用いて勾配ベース探索を可能にします。
- 最適化はAugmented Lagrangian法で解き、計算量と性能のバランスを自動的に満たす削減構成を見つけます。
- 8つのビジュアルベンチマークでの実験により、本手法がグリッドサーチで得た経験的パレートフロンティアを高精度に近似でき、さまざまな削減手法やVLMアーキテクチャに対して汎化することが示されています。
- 学習可能なカーネル関数により層ごとの削減傾向を分析し、単一層の削減よりも多段のプログレッシブ削減がVLMの階層的な圧縮構造をより適切に捉えて、精度と効率のトレードオフを改善することが明らかになります。




