視覚トークン・プルーニングはなぜ、いつ失敗するのか？MLLMデコーディングにおける関連する視覚情報シフトに関する研究

arXiv cs.CV / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、既存の視覚トークン・プルーニング手法が単純な視覚理解では良好に機能する一方で、マルチモーダルLLMのデコーディングにおける複雑な視覚推論タスクには汎化できないことを明らかにする。
この失敗は主に、「関連する視覚情報シフト（RVIS: Relevant Visual Information Shift）」という現象に起因するとしている。これは、デコーディングが進むにつれて、どの視覚トークンが関連しているかが変化することを指す。
著者らは、デコーディング段階における推論要求の変化を追跡するようにプルーニングを調整する、学習不要のアドオン手法DSTP（Decoding-stage Shift-aware Token Pruning）を提案する。
実験の結果、DSTPは複雑な推論ベンチマークにおける性能低下を大幅に抑制でき、さらに視覚理解ベンチマークでも改善が得られることが示される。
この手法は複数の最先端アーキテクチャにまたがって動作し、計算オーバーヘッドが最小であることから、幅広い適用可能性が示唆される。

要旨: 近年、多モーダル大規模言語モデルにおける膨大な数の視覚トークンを扱うために、視覚トークンのプルーニングが研究されてきた。しかし我々は、既存のプルーニング手法が単純な視覚理解では確実に機能する一方で、複雑な視覚推論タスクに対しては効果的に汎化できず、その重要なギャップが先行研究では十分に検討されていないことを観察した。体系的な分析により、復号（デコーディング）中に生じる Relevant Visual Information Shift（RVIS：関連視覚情報のシフト）が主要な失敗要因であることを突き止めた。これに対処するため、訓練不要の追加フレームワークである Decoding-stage Shift-aware Token Pruning（DSTP：復号段階におけるシフト認識トークンプルーニング）を提案する。これは、復号段階での推論要件の変化に合わせて視覚トークンを整合させることで、既存のプルーニング手法を有効に機能させる。大規模な実験の結果、DSTP は複雑な推論タスクにおいてプルーニング手法の性能劣化を大幅に緩和し、さらに視覚理解ベンチマークにおいても一貫して性能向上をもたらすことが示された。加えて、DSTP は多様な最先端アーキテクチャにまたがって有効であり、最小限の計算オーバーヘッドで汎用性と効率性を両立できることを強調している。

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日経XTECH

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

日経XTECH

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

日経XTECH

AI時代も「議事録の取り方」必要か下積み減も土台固め、IT5社の全体研修

日経XTECH

視覚トークン・プルーニングはなぜ、いつ失敗するのか？MLLMデコーディングにおける関連する視覚情報シフトに関する研究

要点

関連記事

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

AI時代も「議事録の取り方」必要か下積み減も土台固め、IT5社の全体研修

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIやロボットと建築が融合、スマートビル市場が離陸へ 主導権は誰に

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

AI時代も「議事録の取り方」必要か 下積み減も土台固め、IT5社の全体研修

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

AI時代も「議事録の取り方」必要か下積み減も土台固め、IT5社の全体研修