要旨:現時点の Video-LLMs は動画理解タスクで印象的な性能を達成しているものの、その自己回帰デコードの効率性は膨大な動画トークン数によって依然として制約されています。視覚トークン剪定はこのボトルネックを部分的に緩和できますが、既存のアプローチは情報の損失に悩まされ、デコードの加速は控えめでしか得られません。本論文では、ParallelVLM を提案します。トレーニングを要さず、ドラフト-検証の推測デコードフレームワークで、長尺動画設定におけるドラフトモデルとターゲットモデル間の相互待機と限られたスピードアップ比の問題の双方を克服します。ParallelVLM は、ハードウェア利用を最大化する2つの並列化ステージを特徴とし、注意機構による位置バイアスを排除することでドラフトとターゲットモデルをより良く整合させる「偏りのない検証者主導剪定」戦略を組み込みます。広範な実験により、ParallelVLM はドラフトウィンドウを 1.6\sim1.8\times の高い受け入れ長で効果的に拡張し、従来の自己回帰デコードと比較して、LLaVA-Onevision-72B で 3.36\times、Qwen2.5-VL-32B で 2.42\times の加速を実現することが示されています。
ParallelVLMは、動画LLM向けのトレーニング不要のドラフト-検証推測デコードフレームワークで、2つの並列段階と偏りのない検証者主導のプルーニング戦略を用いて、位置バイアスを低減し、ドラフトモデルとターゲットモデルをより良く整合させる。
arXiv cs.CV / 2026/3/23
📰 ニュースModels & Research
要点
- ParallelVLMは、動画LLM向けのトレーニング不要のドラフト-検証推測デコードフレームワークで、2つの並列段階と偏りのない検証者主導のプルーニング戦略を用いて、位置バイアスを低減し、ドラフトモデルとターゲットモデルをより良く整合させる。
- 本手法は、長尺動画のデコードにおける相互待機と限定的なスピードアップの問題に対処し、ハードウェアの利用率と推論効率を向上させる。
- ドラフトウィンドウを約1.6〜1.8倍に拡張しつつ、高い採択長を維持することで、ロスレスな加速を実現する。
- 実験結果は、従来の自己回帰デコーディングに比べて顕著なスピードアップを示し、例えば LLaVA-Onevision-72Bで3.36倍、Qwen2.5-VL-32Bで2.42倍。