MI-Pruner:効率的なMLLM向けクロスモーダル相互情報量ガイドのトークン削減手法
arXiv cs.CV / 2026/4/6
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、推論効率を改善するためのマルチモーダル大規模言語モデル(MLLM)向けに、クロスモーダル相互情報量に基づくトークン削減手法「MI-Pruner」を提案する。
- 既存のアプローチが注意スコアを用いて視覚トークンの重要度を順位付けするのに対し、MI-Prunerはクロスモーダル相互作用の前に、視覚特徴表現とテキスト特徴表現の間の相互情報量を直接計算する。
- この手法はシンプルで非侵襲的であり、内部の注意マップへのアクセスやアーキテクチャ変更を必要としない。
- 本論文の実験結果によれば、MI-Prunerは、従来の注意ベースの視覚トークン削減技術よりも優れた性能を示しつつ、レイテンシの追加は最小限である。



