ForestPrune:空間・時間的フォレストモデリングによる動画マルチモーダル大規模言語モデル向けの高比率ビジュアルトークン圧縮

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、動画マルチモーダル大規模言語モデル(MLLMs)に対して、従来手法よりも高いトークン圧縮率を実現することを目的とした、学習不要のビジュアルトークン枝刈り手法「ForestPrune」を提案する。
  • ForestPruneは、意味・空間・時間の制約に基づいて動画フレーム全体に空間時間の「トークン・フォレスト」を構築し、その後、トークンツリーの深さとノードの役割に基づいてグローバルに最適な枝刈り(プルーニング)の判断を導出する。
  • 複数の動画ベンチマークにおけるLLaVA-VideoおよびLLaVA-OneVisionでの実験では、攻撃的なトークン削減にもかかわらず高い精度維持が示されており、たとえばLLaVA-OneVisionでは90%のトークンを枝刈りしながら平均精度95.8%を維持する結果が報告されている。
  • 本手法は、既存の圧縮ベースラインに対して効率面での改善も報告しており、MLVUで+10.1%の精度向上、ならびにLLaVA-VideoにおいてFrameFusionに比べて枝刈り時間を-81.4%削減している。

概要: 計算量とメモリ・オーバーヘッドの大幅な削減により、トークン圧縮はMLLM(マルチモーダル大規模言語モデル)における研究ホットスポットとなり、画像-言語タスクで目覚ましい進展を遂げてきました。しかし、動画に関しては、既存の手法は依然として高い圧縮率を達成するには不十分です。この不足は、時間的かつ継続的な動画コンテンツの十分なモデリングができていないことに起因すると考えられます。そこで本研究では、ForestPruneと呼ぶ動画MLLM向けの新規かつ学習不要(training-free)のトークン剪定(pruning)手法を提案します。ForestPruneは、空間-時間(Spatial-temporal)フォレスト・モデリングにより、効果的で高い剪定率を実現します。具体的には、ForestPruneは動画フレーム間で意味・空間・時間の制約に基づいてトークンフォレストを構築し、動画全体の理解を可能にします。その後、ForestPruneは、木の深さとノードの役割に基づいてトークンツリーとノードの重要度を評価し、グローバルに最適な剪定判断を得ます。ForestPruneを検証するために、LLaVA-VideoおよびLLaVA-OneVisionの2つの代表的な動画MLLMに適用し、多数の動画ベンチマークで大規模な実験を行います。実験結果は、たとえばLLaVA-OneVisionでトークンを90%削減しながら平均精度95.8%を維持するなど、動画MLLMに対する大きな有効性を示すだけでなく、比較対象のトークン圧縮手法よりも優れた性能と効率を示します。例えば、MLVUで+10.1%の精度向上、LLaVA-VideoでFrameFusionより-81.4%の剪定時間削減です。