森を見よ、木を見ず：動画LLMの効率的な推論のための視覚セマンティック誘導によるゆるめの推論的デコーディング

arXiv cs.CL / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、動画LLMにおける推論レイテンシの高さに対し、Video-LLM向けに調整されたドラフト＆検証パラダイムを用いる学習不要の推論的デコーディング手法LVSpecを提案する。
LVSpecは、視覚セマンティック誘導を用いて、視覚的に関連する「アンカートークン」に対してのみ厳密な検証を強制し、視覚的に無関係なフィラートークンでは検証を緩めることで、推論的デコーディングの制約を緩和する。
それらのアンカーを見つけるための軽量な視覚関連トークン識別スキームと、位置が一致しなくても意味的に同等なトークンを受理できる、位置ずれ許容型のメカニズムを導入する。
実験結果により、LVSpecは目標性能に対して非常に高い忠実度（>99.8）を維持しつつ生成を大幅に高速化し、Qwen2.5-VL-32BおよびLLaVA-OneVision-72Bでそれぞれ2.70xおよび2.94xの加速を達成する。
動画LLM向けの既存の学習不要推論的デコーディング手法と比べて、LVSpecは平均受理長を136%増やし、速度向上比を35%改善しており、モデルの再学習なしに実質的により大きなスループット向上を示す。

Abstract

動画大規模言語モデル（Video-LLMs）は動画理解に優れている一方、自己回帰的生成の過程で高い推論レイテンシに悩まされています。スペキュレイティブ・デコーディング（SD）は、ドラフト・アンド・ベリファイ（下書きして検証する）というパラダイムを適用することでこの問題を緩和しますが、既存手法は厳密な完全一致ルールに縛られており、加速の可能性を大きく制限しています。このギャップを埋めるために、私たちはVideo-LLMs向けに特化した最初の、トレーニング不要のルーズSDフレームワークであるLVSpecを提案します。生成は、（厳密さを要求する）視覚的に関連するアンカーによって支配される一方で、（ルーズな検証を許容する）視覚的に無関係なフィラーが大量に存在する、という洞察に基づき、LVSpecは軽量な視覚的関連トークンの識別手法を用いて前者を正確に特定します。さらに受理率を最大化するために、位置がずれていても意味的に同等なトークンを効果的に救済する、位置シフト許容メカニズムを追加します。実験の結果、LVSpecは高い忠実度と速度を実現することが示されています。目標性能の>99.8を維持しつつ、Qwen2.5-VL-32Bを2.70x、LLaVA-OneVision-72Bを2.94x加速します。特に、平均受理長とスピードアップ比は、それぞれSOTAのVideo-LLMs向けトレーニング不要SD手法と比較して136%と35%増加します。

Black Hat Asia

AI Business

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

日経XTECH

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

Reddit r/MachineLearning

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

Hugging Face Blog

森を見よ、木を見ず：動画LLMの効率的な推論のための視覚セマンティック誘導によるゆるめの推論的デコーディング

要点

Abstract

関連記事

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす 「たかがツール」は危険

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険