VisPCO：予算対応のパレートフロンティア学習による視覚トークン削減設定の最適化（視覚言語モデル）

arXiv cs.CV / 2026/4/17

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚言語モデルにおける高解像度画像や動画フレーム処理の計算量が二次的に増える課題に対し、削減設定を固定せずに最適化することで対処します。
提案手法VisPCOは、視覚トークン削減を予算に応じたパレートフロンティア最適化問題として定式化し、連続緩和とストレートスルー推定器を用いて勾配ベース探索を可能にします。
最適化はAugmented Lagrangian法で解き、計算量と性能のバランスを自動的に満たす削減構成を見つけます。
8つのビジュアルベンチマークでの実験により、本手法がグリッドサーチで得た経験的パレートフロンティアを高精度に近似でき、さまざまな削減手法やVLMアーキテクチャに対して汎化することが示されています。
学習可能なカーネル関数により層ごとの削減傾向を分析し、単一層の削減よりも多段のプログレッシブ削減がVLMの階層的な圧縮構造をより適切に捉えて、精度と効率のトレードオフを改善することが明らかになります。