ReDiPrune：効率的なマルチモーダルLLMのための関連性・多様性プレ・プロジェクション型トークン削減

arXiv cs.CV / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

ReDiPruneは、マルチモーダルLLM向けの学習不要でプラグアンドプレイのトークン削減手法であり、視覚トークンを視覚言語プロジェクタの前で削減することでTransformerの計算コストを削減します。
軽量なスコアリング規則により、テキスト条件付きの関連性と最大-最小の多様性のバランスを取りながら、視覚エンコーダの出力から直接情報量の多いトークンを選択し、冗長性を回避します。
視覚・言語プロジェクタ後の削減とは異なり、微細な空間的および意味的手がかりを保持することで、複数の画像・動画ベンチマークにおいて精度と効率のトレードオフを改善します。
EgoSchemaにおいてLLaVA-NeXT-Video-7Bを用いる場合、視覚トークンの15%のみを保持しても、絶対精度が+2.0%向上し、TFLOPsで計算量を6倍以上削減できます。
著者らは、再学習やアーキテクチャ変更なしで、視覚エンコーダとプロジェクタの間にReDiPruneをシームレスに挿入するためのコードを提供しています。

要旨: 近年のマルチモーダル大規模言語モデルは、Transformerが多数の視覚トークンを処理する必要があるため計算コストが高いです。本稿では、視覚特徴が豊かで判別的なまま維持される、視覚言語プロジェクタの前に適用する学習不要のトークンプランニング手法である\textbf{ReDiPrune}を提案します。圧縮された表現に対して動作する、プロジェクタ後のプランニング手法とは異なり、ReDiPruneは視覚エンコーダの出力から情報量の多いトークンを直接選択し、きめ細かな空間的および意味的手がかりを保持します。各トークンは軽量なルールによってスコア付けされ、テキストに条件付けされた関連性と最大-最小の多様性を同時に考慮することで、選択されたトークンがクエリに対して関連性が高く、かつ冗長でないことを保証します。ReDiPruneは完全にプラグアンドプレイであり、再学習やアーキテクチャの修正は不要で、エンコーダとプロジェクタの間にシームレスに挿入できます。4つの動画および5つの画像ベンチマークにおいて、精度と計算効率のトレードオフを一貫して改善します。例えば、EgoSchemaでLLaVA-NeXT-Video-7Bを用いる場合、視覚トークンの15\%のみを保持すると、絶対精度が+2.0\%向上しつつ、TFLOPsにおける計算量を $6\times$ 以上削減できます。コードは https://github.com/UA-CVML/ReDiPrune で公開されています。

Black Hat Asia

AI Business

ラピダスCTO、1ナノでTSMCと「半年差に」まずは信頼獲得から

日経XTECH

「Galaxy S26 Ultra」、のぞき見防ぐ最上機買って分かったAIの進化

日経XTECH

RotorQuant vs TurboQuant — KVキャッシュ量子化の最前線

Qiita

【備忘録】分類モデルの基本的な評価指標（Accuracy / Recall / Precision / F1スコア）まとめ

Qiita

ReDiPrune：効率的なマルチモーダルLLMのための関連性・多様性プレ・プロジェクション型トークン削減

要点

関連記事

Black Hat Asia

ラピダスCTO、1ナノでTSMCと「半年差に」まずは信頼獲得から

「Galaxy S26 Ultra」、のぞき見防ぐ最上機買って分かったAIの進化

RotorQuant vs TurboQuant — KVキャッシュ量子化の最前線

【備忘録】分類モデルの基本的な評価指標（Accuracy / Recall / Precision / F1スコア）まとめ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

ラピダスCTO、1ナノでTSMCと「半年差に」 まずは信頼獲得から

「Galaxy S26 Ultra」、のぞき見防ぐ最上機 買って分かったAIの進化

RotorQuant vs TurboQuant — KVキャッシュ量子化の最前線

【備忘録】分類モデルの基本的な評価指標（Accuracy / Recall / Precision / F1スコア）まとめ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ラピダスCTO、1ナノでTSMCと「半年差に」まずは信頼獲得から

「Galaxy S26 Ultra」、のぞき見防ぐ最上機買って分かったAIの進化