概要: 文書理解とGUI(グラフィカル・ユーザー・インターフェース)操作は、視覚言語モデル(VLM)の中でも最も高い価値を持つ応用の1つですが、例外的に重い計算負荷を課します。きわめて細かなテキストや小さなUI要素は高解像度の入力を必要とし、その結果、数万もの視覚トークンが生成されます。私たちは、このコストの多くが無駄であることを観察しています。文書およびGUIのベンチマーク全体で、画像パッチのうち画素レベルで一意なものはわずか22--71\%であり、残りは同一画像内の別のパッチの完全な重複です。私たちは、
\textbf{PixelPrune} を提案します。これは、予測符号化(predictive-coding)に基づく圧縮によって画素レベルの冗長性を活用し、Vision Transformer(ViT)エンコーダの extit{前}で冗長なパッチを切り落とします。PixelPruneは、いかなるニューラル計算の前にも画素空間で動作するため、ViTエンコーダと、その後段のLLMの双方を高速化し、推論パイプライン全体をカバーします。この手法は学習不要(training-free)で、学習可能なパラメータを必要とせず、画素損失なし圧縮(\tau{=}0)だけでなく、制御された損失あり圧縮(\tau{>}0)もサポートします。3つのモデルスケールと文書・GUIベンチマークにまたがる実験の結果、PixelPruneは競争力のあるタスク精度を維持しつつ、最大4.2\timesの推論速度向上と1.9\timesの学習加速を実現することが示されました。コードは https://github.com/OPPO-Mente-Lab/PixelPrune で公開されています。
PixelPrune:予測符号化に基づくピクセルレベルの適応的ビジュアルトークン削減
arXiv cs.CV / 2026/4/2
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚言語パイプラインにおいてViTエンコーダの前に冗長な画像パッチを除去する、学習不要のピクセルレベル手法「PixelPrune」を提案する。
- 文書およびGUIベンチマークでは、パッチのうちピクセル的に一意なものが22〜71%に過ぎないという観察に基づき、ピクセル空間での予測符号化ベースの圧縮を可能にする。
- PixelPruneは、推論パイプラインの早い段階で視覚トークン数を削減することで、ViTエンコーダと後段のLLMの双方を高速化する。
- 本手法は、学習可能なパラメータなしで、ピクセルロスレス圧縮(τ=0)に加えて、制御されたロッシーモード(τ>0)もサポートする。
- 文書およびGUIベンチマークに対して、3つのモデル規模で行った実験により、最大4.2×の推論速度向上および最大1.9×の学習加速を、競争力のある精度を維持しながら達成したことが報告されている。




