広告

ReDiPrune:効率的なマルチモーダルLLMのための関連性・多様性プレ・プロジェクション型トークン削減

arXiv cs.CV / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ReDiPruneは、マルチモーダルLLM向けの学習不要でプラグアンドプレイのトークン削減手法であり、視覚トークンを視覚言語プロジェクタの前で削減することでTransformerの計算コストを削減します。
  • 軽量なスコアリング規則により、テキスト条件付きの関連性と最大-最小の多様性のバランスを取りながら、視覚エンコーダの出力から直接情報量の多いトークンを選択し、冗長性を回避します。
  • 視覚・言語プロジェクタ後の削減とは異なり、微細な空間的および意味的手がかりを保持することで、複数の画像・動画ベンチマークにおいて精度と効率のトレードオフを改善します。
  • EgoSchemaにおいてLLaVA-NeXT-Video-7Bを用いる場合、視覚トークンの15%のみを保持しても、絶対精度が+2.0%向上し、TFLOPsで計算量を6倍以上削減できます。
  • 著者らは、再学習やアーキテクチャ変更なしで、視覚エンコーダとプロジェクタの間にReDiPruneをシームレスに挿入するためのコードを提供しています。

要旨: 近年のマルチモーダル大規模言語モデルは、Transformerが多数の視覚トークンを処理する必要があるため計算コストが高いです。本稿では、視覚特徴が豊かで判別的なまま維持される、視覚言語プロジェクタの前に適用する学習不要のトークンプランニング手法である\textbf{ReDiPrune}を提案します。圧縮された表現に対して動作する、プロジェクタ後のプランニング手法とは異なり、ReDiPruneは視覚エンコーダの出力から情報量の多いトークンを直接選択し、きめ細かな空間的および意味的手がかりを保持します。各トークンは軽量なルールによってスコア付けされ、テキストに条件付けされた関連性と最大-最小の多様性を同時に考慮することで、選択されたトークンがクエリに対して関連性が高く、かつ冗長でないことを保証します。ReDiPruneは完全にプラグアンドプレイであり、再学習やアーキテクチャの修正は不要で、エンコーダとプロジェクタの間にシームレスに挿入できます。4つの動画および5つの画像ベンチマークにおいて、精度と計算効率のトレードオフを一貫して改善します。例えば、EgoSchemaでLLaVA-NeXT-Video-7Bを用いる場合、視覚トークンの15\%のみを保持すると、絶対精度が+2.0\%向上しつつ、TFLOPsにおける計算量を6\times以上削減できます。コードは https://github.com/UA-CVML/ReDiPrune で公開されています。

広告