PixelPrune：予測符号化に基づくピクセルレベルの適応的ビジュアルトークン削減

arXiv cs.CV / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚言語パイプラインにおいてViTエンコーダの前に冗長な画像パッチを除去する、学習不要のピクセルレベル手法「PixelPrune」を提案する。
文書およびGUIベンチマークでは、パッチのうちピクセル的に一意なものが22〜71%に過ぎないという観察に基づき、ピクセル空間での予測符号化ベースの圧縮を可能にする。
PixelPruneは、推論パイプラインの早い段階で視覚トークン数を削減することで、ViTエンコーダと後段のLLMの双方を高速化する。
本手法は、学習可能なパラメータなしで、ピクセルロスレス圧縮（τ=0）に加えて、制御されたロッシーモード（τ>0）もサポートする。
文書およびGUIベンチマークに対して、3つのモデル規模で行った実験により、最大4.2×の推論速度向上および最大1.9×の学習加速を、競争力のある精度を維持しながら達成したことが報告されている。

概要: 文書理解とGUI（グラフィカル・ユーザー・インターフェース）操作は、視覚言語モデル（VLM）の中でも最も高い価値を持つ応用の1つですが、例外的に重い計算負荷を課します。きわめて細かなテキストや小さなUI要素は高解像度の入力を必要とし、その結果、数万もの視覚トークンが生成されます。私たちは、このコストの多くが無駄であることを観察しています。文書およびGUIのベンチマーク全体で、画像パッチのうち画素レベルで一意なものはわずか22--71\%であり、残りは同一画像内の別のパッチの完全な重複です。私たちは、
\textbf{PixelPrune} を提案します。これは、予測符号化（predictive-coding）に基づく圧縮によって画素レベルの冗長性を活用し、Vision Transformer（ViT）エンコーダの extit{前}で冗長なパッチを切り落とします。PixelPruneは、いかなるニューラル計算の前にも画素空間で動作するため、ViTエンコーダと、その後段のLLMの双方を高速化し、推論パイプライン全体をカバーします。この手法は学習不要（training-free）で、学習可能なパラメータを必要とせず、画素損失なし圧縮（ $\tau{=}0$ ）だけでなく、制御された損失あり圧縮（ $\tau{>}0$ ）もサポートします。3つのモデルスケールと文書・GUIベンチマークにまたがる実験の結果、PixelPruneは競争力のあるタスク精度を維持しつつ、最大4.2 $\times$ の推論速度向上と1.9 $\times$ の学習加速を実現することが示されました。コードは https://github.com/OPPO-Mente-Lab/PixelPrune で公開されています。