MI-Pruner:効率的なMLLM向けクロスモーダル相互情報量ガイドのトークン削減手法

arXiv cs.CV / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、推論効率を改善するためのマルチモーダル大規模言語モデル(MLLM)向けに、クロスモーダル相互情報量に基づくトークン削減手法「MI-Pruner」を提案する。
  • 既存のアプローチが注意スコアを用いて視覚トークンの重要度を順位付けするのに対し、MI-Prunerはクロスモーダル相互作用の前に、視覚特徴表現とテキスト特徴表現の間の相互情報量を直接計算する。
  • この手法はシンプルで非侵襲的であり、内部の注意マップへのアクセスやアーキテクチャ変更を必要としない。
  • 本論文の実験結果によれば、MI-Prunerは、従来の注意ベースの視覚トークン削減技術よりも優れた性能を示しつつ、レイテンシの追加は最小限である。

Abstract

マルチモーダル大規模言語モデル(MLLM)では、視覚情報はテキストに比べて比較的疎です。その結果、効率的な推論のための視覚プルーニングに関する研究が登場しています。現在のアプローチでは一般に、視覚エンコーダまたはLLMデコーダにおける注意スコアに基づいてトークンの重要度を測定し、注意スコアが高い視覚トークンを選択して、その他をプルーニングします。本論文では、このような機構に依存しない、より別のそしてより外科的なアプローチを追究します。機構固有のシグナルに頼る代わりに、相互作用の前段階で、視覚特徴とテキスト特徴そのものの間の相互情報量(Mutual Information: MI)を直接計算します。これにより、特徴レベルでのモーダル間依存を明示的に測定できるようになります。提案するMI-Prunerはシンプルで効率的かつ非侵襲的であり、内部の注意マップへのアクセスやアーキテクチャの変更を必要としません。実験結果は、提案手法が最小限のレイテンシで、従来の注意ベースのプルーニング手法を上回ることを示しています。