森を見よ、木を見ず:動画LLMの効率的な推論のための視覚セマンティック誘導によるゆるめの推論的デコーディング
arXiv cs.CL / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、動画LLMにおける推論レイテンシの高さに対し、Video-LLM向けに調整されたドラフト&検証パラダイムを用いる学習不要の推論的デコーディング手法LVSpecを提案する。
- LVSpecは、視覚セマンティック誘導を用いて、視覚的に関連する「アンカートークン」に対してのみ厳密な検証を強制し、視覚的に無関係なフィラートークンでは検証を緩めることで、推論的デコーディングの制約を緩和する。
- それらのアンカーを見つけるための軽量な視覚関連トークン識別スキームと、位置が一致しなくても意味的に同等なトークンを受理できる、位置ずれ許容型のメカニズムを導入する。
- 実験結果により、LVSpecは目標性能に対して非常に高い忠実度(>99.8)を維持しつつ生成を大幅に高速化し、Qwen2.5-VL-32BおよびLLaVA-OneVision-72Bでそれぞれ2.70xおよび2.94xの加速を達成する。
- 動画LLM向けの既存の学習不要推論的デコーディング手法と比べて、LVSpecは平均受理長を136%増やし、速度向上比を35%改善しており、モデルの再学習なしに実質的により大きなスループット向上を示す。



