ParallelVLMは、動画LLM向けのトレーニング不要のドラフト-検証推測デコードフレームワークで、2つの並列段階と偏りのない検証者主導のプルーニング戦略を用いて、位置バイアスを低減し、ドラフトモデルとターゲットモデルをより良く整合させる。

arXiv cs.CV / 2026/3/23

📰 ニュースModels & Research

共有:

要点

ParallelVLMは、動画LLM向けのトレーニング不要のドラフト-検証推測デコードフレームワークで、2つの並列段階と偏りのない検証者主導のプルーニング戦略を用いて、位置バイアスを低減し、ドラフトモデルとターゲットモデルをより良く整合させる。
本手法は、長尺動画のデコードにおける相互待機と限定的なスピードアップの問題に対処し、ハードウェアの利用率と推論効率を向上させる。
ドラフトウィンドウを約1.6〜1.8倍に拡張しつつ、高い採択長を維持することで、ロスレスな加速を実現する。
実験結果は、従来の自己回帰デコーディングに比べて顕著なスピードアップを示し、例えば LLaVA-Onevision-72Bで3.36倍、Qwen2.5-VL-32Bで2.42倍。

要旨：現時点の Video-LLMs は動画理解タスクで印象的な性能を達成しているものの、その自己回帰デコードの効率性は膨大な動画トークン数によって依然として制約されています。視覚トークン剪定はこのボトルネックを部分的に緩和できますが、既存のアプローチは情報の損失に悩まされ、デコードの加速は控えめでしか得られません。本論文では、ParallelVLM を提案します。トレーニングを要さず、ドラフト-検証の推測デコードフレームワークで、長尺動画設定におけるドラフトモデルとターゲットモデル間の相互待機と限られたスピードアップ比の問題の双方を克服します。ParallelVLM は、ハードウェア利用を最大化する2つの並列化ステージを特徴とし、注意機構による位置バイアスを排除することでドラフトとターゲットモデルをより良く整合させる「偏りのない検証者主導剪定」戦略を組み込みます。広範な実験により、ParallelVLM はドラフトウィンドウを $1.6\sim1.8\times$ の高い受け入れ長で効果的に拡張し、従来の自己回帰デコードと比較して、LLaVA-Onevision-72B で 3.36 $\times$ 、Qwen2.5-VL-32B で 2.42 $\times$ の加速を実現することが示されています。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/23Dailyインサイトを見る →

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LLMの合成データ生成は臨床テキストマイニングに役立つか？

Dev.to

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

Dev.to

要点

💡 この記事が使われたインサイト

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

LLMの合成データ生成は臨床テキストマイニングに役立つか？

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer