HAWK：マルチモーダルモデルにおける、重要度を意識した視覚トークンのプルーニング（Head Importance-Aware Visual Token Pruning）

arXiv cs.CV / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、マルチモーダルLLMに対する学習不要の視覚トークン・プルーニング手法であるHAWKを提案する。多数の視覚トークンによって生じる推論時のオーバーヘッドと計算コストを抑えることを目的としている。
注意ヘッドは視覚理解に対して不均等に寄与すると主張し、ヘッド重要度の重みとテキストに導かれた注意（text-guided attention）を用いて、タスクに最も関連する視覚トークンを推定する。
HAWKは冗長なトークンを削除しつつ重要な視覚情報は保持し、再学習なしでさまざまなMLLM間でシームレスに動作するよう設計されている。
複数の視覚言語ベンチマークでの実験では、最先端の精度を報告している。たとえばQwen2.5-VLでは、視覚トークンを80.2%プルーニングしながら精度を96.0%維持している。
この手法はエンドツーエンドのレイテンシーも削減し（元の74.4%まで低減）、GPUメモリ使用量も抑える。コードはGitHubで公開されている。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH