森を見よ、木を見ず:動画LLMの効率的な推論のための視覚セマンティック誘導によるゆるめの推論的デコーディング

arXiv cs.CL / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、動画LLMにおける推論レイテンシの高さに対し、Video-LLM向けに調整されたドラフト&検証パラダイムを用いる学習不要の推論的デコーディング手法LVSpecを提案する。
  • LVSpecは、視覚セマンティック誘導を用いて、視覚的に関連する「アンカートークン」に対してのみ厳密な検証を強制し、視覚的に無関係なフィラートークンでは検証を緩めることで、推論的デコーディングの制約を緩和する。
  • それらのアンカーを見つけるための軽量な視覚関連トークン識別スキームと、位置が一致しなくても意味的に同等なトークンを受理できる、位置ずれ許容型のメカニズムを導入する。
  • 実験結果により、LVSpecは目標性能に対して非常に高い忠実度(>99.8)を維持しつつ生成を大幅に高速化し、Qwen2.5-VL-32BおよびLLaVA-OneVision-72Bでそれぞれ2.70xおよび2.94xの加速を達成する。
  • 動画LLM向けの既存の学習不要推論的デコーディング手法と比べて、LVSpecは平均受理長を136%増やし、速度向上比を35%改善しており、モデルの再学習なしに実質的により大きなスループット向上を示す。

Abstract

動画大規模言語モデル(Video-LLMs)は動画理解に優れている一方、自己回帰的生成の過程で高い推論レイテンシに悩まされています。スペキュレイティブ・デコーディング(SD)は、ドラフト・アンド・ベリファイ(下書きして検証する)というパラダイムを適用することでこの問題を緩和しますが、既存手法は厳密な完全一致ルールに縛られており、加速の可能性を大きく制限しています。このギャップを埋めるために、私たちはVideo-LLMs向けに特化した最初の、トレーニング不要のルーズSDフレームワークであるLVSpecを提案します。生成は、(厳密さを要求する)視覚的に関連するアンカーによって支配される一方で、(ルーズな検証を許容する)視覚的に無関係なフィラーが大量に存在する、という洞察に基づき、LVSpecは軽量な視覚的関連トークンの識別手法を用いて前者を正確に特定します。さらに受理率を最大化するために、位置がずれていても意味的に同等なトークンを効果的に救済する、位置シフト許容メカニズムを追加します。実験の結果、LVSpecは高い忠実度と速度を実現することが示されています。目標性能の>99.8を維持しつつ、Qwen2.5-VL-32Bを2.70x、LLaVA-OneVision-72Bを2.94x加速します。特に、平均受理長とスピードアップ比は、それぞれSOTAのVideo-LLMs向けトレーニング不要SD手法と比較して136%と35%増加します。