小型ビジョン・言語モデルは長時間動画理解における賢い圧縮器である

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多モーダルLLMを1時間級の動画に適応することが、コンテキスト/トークン予算の制約と、それに伴う忠実度（フィデリティ）の低下によって限界が生じると主張する。特に、密な視覚ストリームや「lost-in-the-middle（途中で見失われる）」効果が影響する。
提案手法Tempoは、クエリ認識型の長時間動画圧縮フレームワークであり、小型ビジョン・言語モデル（SVLM）をローカルな時間方向の圧縮器として用いることで、1回のフォワードパスでコンパクトかつ意図に整合した表現を生成する。
Tempoは、学習不要のO(1)ダイナミックルーティング手法であるAdaptive Token Allocation（ATA）を導入する。クエリにとって重要なセグメントにはより多くの帯域（バンド幅）を割り当て、一方で冗長な部分は最小限の時間アンカーに圧縮しつつ、因果律を破らないようにする。
実験では、6B規模のTempoモデルが最先端の長尺動画理解を達成した。厳格な8Kの視覚予算下で、極長のLVBench（4101s）において52.3を記録し、GPT-4oやGemini 1.5 Proを上回る。
これらの結果は、長尺動画理解は、単にコンテキストウィンドウを拡張/パディングするのではなく、意図に駆動した効率化と、構造化された圧縮に依拠すべきだという示唆を与える。

要旨: マルチモーダル大規模言語モデル（MLLM）を1時間にも及ぶ長時間動画に適応することは、コンテキスト制限によってボトルネック化されている。密な視覚ストリームはトークン予算を飽和させ、「途中で見失う」現象をさらに悪化させる。疎サンプリングや一様プーリングのような既存のヒューリスティックは、決定的な瞬間を捨てたり、無関係な背景に帯域を浪費したりすることで、無自覚に忠実度を犠牲にしてしまう。我々は、下流の理解のために長い動画を効率的に圧縮する、クエリ対応型フレームワーク Tempo を提案する。Tempo は、局所的な時間圧縮器として Small Vision-Language Model（SVLM）を活用し、トークン削減を単一のフォワードパスでコンパクトで意図に整合した表現を生成するための、早期のクロスモーダル蒸留プロセスとして位置付ける。因果律を壊さずに厳密な予算を満たすために、Adaptive Token Allocation（ATA）を導入する。SVLM のゼロショットの関連性事前知識と意味的なフロントローディングを活用し、ATA は訓練不要の $O(1)$ 動的ルータとして機能する。クエリにとって重要なセグメントへ密な帯域を割り当てつつ、冗長性は最小限の時間アンカーに圧縮することで、全体のストーリーラインを維持する。大規模な実験により、6B アーキテクチャが、攻撃的な動的圧縮（0.5-16 tokens/frame）下で最先端の性能を達成することを示す。極端に長い LVBench（4101s）では、Tempo は厳格な 8K の視覚予算のもとで 52.3 を得て、GPT-4o と Gemini 1.5 Pro を上回る。2048 フレームにスケールすると 53.7 に到達する。決定的に重要なのは、Tempo が理論上の限界を大幅に下回る水準で 1時間の動画を実質的に圧縮する点であり、真の長編動画理解は、文脈ウィンドウを貪欲に水増しすることではなく、意図駆動の効率性に依存することを証明している。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/10Dailyインサイトを見る →

Black Hat Asia

AI Business

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Reddit r/artificial

小型ビジョン・言語モデルは長時間動画理解における賢い圧縮器である

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ 通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透