視覚トークン・プルーニングはなぜ、いつ失敗するのか?MLLMデコーディングにおける関連する視覚情報シフトに関する研究

arXiv cs.CV / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存の視覚トークン・プルーニング手法が単純な視覚理解では良好に機能する一方で、マルチモーダルLLMのデコーディングにおける複雑な視覚推論タスクには汎化できないことを明らかにする。
  • この失敗は主に、「関連する視覚情報シフト(RVIS: Relevant Visual Information Shift)」という現象に起因するとしている。これは、デコーディングが進むにつれて、どの視覚トークンが関連しているかが変化することを指す。
  • 著者らは、デコーディング段階における推論要求の変化を追跡するようにプルーニングを調整する、学習不要のアドオン手法DSTP(Decoding-stage Shift-aware Token Pruning)を提案する。
  • 実験の結果、DSTPは複雑な推論ベンチマークにおける性能低下を大幅に抑制でき、さらに視覚理解ベンチマークでも改善が得られることが示される。
  • この手法は複数の最先端アーキテクチャにまたがって動作し、計算オーバーヘッドが最小であることから、幅広い適用可能性が示唆される。

要旨: 近年、多モーダル大規模言語モデルにおける膨大な数の視覚トークンを扱うために、視覚トークンのプルーニングが研究されてきた。しかし我々は、既存のプルーニング手法が単純な視覚理解では確実に機能する一方で、複雑な視覚推論タスクに対しては効果的に汎化できず、その重要なギャップが先行研究では十分に検討されていないことを観察した。体系的な分析により、復号(デコーディング)中に生じる Relevant Visual Information Shift(RVIS:関連視覚情報のシフト)が主要な失敗要因であることを突き止めた。これに対処するため、訓練不要の追加フレームワークである Decoding-stage Shift-aware Token Pruning(DSTP:復号段階におけるシフト認識トークンプルーニング)を提案する。これは、復号段階での推論要件の変化に合わせて視覚トークンを整合させることで、既存のプルーニング手法を有効に機能させる。大規模な実験の結果、DSTP は複雑な推論タスクにおいてプルーニング手法の性能劣化を大幅に緩和し、さらに視覚理解ベンチマークにおいても一貫して性能向上をもたらすことが示された。加えて、DSTP は多様な最先端アーキテクチャにまたがって有効であり、最小限の計算オーバーヘッドで汎用性と効率性を両立できることを強調している。