HAWK:マルチモーダルモデルにおける、重要度を意識した視覚トークンのプルーニング(Head Importance-Aware Visual Token Pruning)

arXiv cs.CV / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文では、マルチモーダルLLMに対する学習不要の視覚トークン・プルーニング手法であるHAWKを提案する。多数の視覚トークンによって生じる推論時のオーバーヘッドと計算コストを抑えることを目的としている。
  • 注意ヘッドは視覚理解に対して不均等に寄与すると主張し、ヘッド重要度の重みとテキストに導かれた注意(text-guided attention)を用いて、タスクに最も関連する視覚トークンを推定する。
  • HAWKは冗長なトークンを削除しつつ重要な視覚情報は保持し、再学習なしでさまざまなMLLM間でシームレスに動作するよう設計されている。
  • 複数の視覚言語ベンチマークでの実験では、最先端の精度を報告している。たとえばQwen2.5-VLでは、視覚トークンを80.2%プルーニングしながら精度を96.0%維持している。
  • この手法はエンドツーエンドのレイテンシーも削減し(元の74.4%まで低減)、GPUメモリ使用量も抑える。コードはGitHubで公開されている。