MI-Pruner：効率的なMLLM向けクロスモーダル相互情報量ガイドのトークン削減手法

arXiv cs.CV / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、推論効率を改善するためのマルチモーダル大規模言語モデル（MLLM）向けに、クロスモーダル相互情報量に基づくトークン削減手法「MI-Pruner」を提案する。
既存のアプローチが注意スコアを用いて視覚トークンの重要度を順位付けするのに対し、MI-Prunerはクロスモーダル相互作用の前に、視覚特徴表現とテキスト特徴表現の間の相互情報量を直接計算する。
この手法はシンプルで非侵襲的であり、内部の注意マップへのアクセスやアーキテクチャ変更を必要としない。
本論文の実験結果によれば、MI-Prunerは、従来の注意ベースの視覚トークン削減技術よりも優れた性能を示しつつ、レイテンシの追加は最小限である。

Abstract

マルチモーダル大規模言語モデル（MLLM）では、視覚情報はテキストに比べて比較的疎です。その結果、効率的な推論のための視覚プルーニングに関する研究が登場しています。現在のアプローチでは一般に、視覚エンコーダまたはLLMデコーダにおける注意スコアに基づいてトークンの重要度を測定し、注意スコアが高い視覚トークンを選択して、その他をプルーニングします。本論文では、このような機構に依存しない、より別のそしてより外科的なアプローチを追究します。機構固有のシグナルに頼る代わりに、相互作用の前段階で、視覚特徴とテキスト特徴そのものの間の相互情報量（Mutual Information: MI）を直接計算します。これにより、特徴レベルでのモーダル間依存を明示的に測定できるようになります。提案するMI-Prunerはシンプルで効率的かつ非侵襲的であり、内部の注意マップへのアクセスやアーキテクチャの変更を必要としません。実験結果は、提案手法が最小限のレイテンシで、従来の注意ベースのプルーニング手法を上回ることを示しています。

Black Hat Asia

AI Business

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

日経XTECH

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

日経XTECH

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

日経XTECH

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに

日経XTECH

MI-Pruner：効率的なMLLM向けクロスモーダル相互情報量ガイドのトークン削減手法

要点

Abstract

関連記事

Black Hat Asia

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

キオクシアHD社長に技術畑の太田裕雄副社長 早坂社長はアドバイザーに

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに