小型ビジョン・言語モデルは長時間動画理解における賢い圧縮器である

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多モーダルLLMを1時間級の動画に適応することが、コンテキスト/トークン予算の制約と、それに伴う忠実度(フィデリティ)の低下によって限界が生じると主張する。特に、密な視覚ストリームや「lost-in-the-middle(途中で見失われる)」効果が影響する。
  • 提案手法Tempoは、クエリ認識型の長時間動画圧縮フレームワークであり、小型ビジョン・言語モデル(SVLM)をローカルな時間方向の圧縮器として用いることで、1回のフォワードパスでコンパクトかつ意図に整合した表現を生成する。
  • Tempoは、学習不要のO(1)ダイナミックルーティング手法であるAdaptive Token Allocation(ATA)を導入する。クエリにとって重要なセグメントにはより多くの帯域(バンド幅)を割り当て、一方で冗長な部分は最小限の時間アンカーに圧縮しつつ、因果律を破らないようにする。
  • 実験では、6B規模のTempoモデルが最先端の長尺動画理解を達成した。厳格な8Kの視覚予算下で、極長のLVBench(4101s)において52.3を記録し、GPT-4oやGemini 1.5 Proを上回る。
  • これらの結果は、長尺動画理解は、単にコンテキストウィンドウを拡張/パディングするのではなく、意図に駆動した効率化と、構造化された圧縮に依拠すべきだという示唆を与える。

要旨: マルチモーダル大規模言語モデル(MLLM)を1時間にも及ぶ長時間動画に適応することは、コンテキスト制限によってボトルネック化されている。密な視覚ストリームはトークン予算を飽和させ、「途中で見失う」現象をさらに悪化させる。疎サンプリングや一様プーリングのような既存のヒューリスティックは、決定的な瞬間を捨てたり、無関係な背景に帯域を浪費したりすることで、無自覚に忠実度を犠牲にしてしまう。我々は、下流の理解のために長い動画を効率的に圧縮する、クエリ対応型フレームワーク Tempo を提案する。Tempo は、局所的な時間圧縮器として Small Vision-Language Model(SVLM)を活用し、トークン削減を単一のフォワードパスでコンパクトで意図に整合した表現を生成するための、早期のクロスモーダル蒸留プロセスとして位置付ける。因果律を壊さずに厳密な予算を満たすために、Adaptive Token Allocation(ATA)を導入する。SVLM のゼロショットの関連性事前知識と意味的なフロントローディングを活用し、ATA は訓練不要の O(1) 動的ルータとして機能する。クエリにとって重要なセグメントへ密な帯域を割り当てつつ、冗長性は最小限の時間アンカーに圧縮することで、全体のストーリーラインを維持する。大規模な実験により、6B アーキテクチャが、攻撃的な動的圧縮(0.5-16 tokens/frame)下で最先端の性能を達成することを示す。極端に長い LVBench(4101s)では、Tempo は厳格な 8K の視覚予算のもとで 52.3 を得て、GPT-4o と Gemini 1.5 Pro を上回る。2048 フレームにスケールすると 53.7 に到達する。決定的に重要なのは、Tempo が理論上の限界を大幅に下回る水準で 1時間の動画を実質的に圧縮する点であり、真の長編動画理解は、文脈ウィンドウを貪欲に水増しすることではなく、意図駆動の効率性に依存することを証明している。

小型ビジョン・言語モデルは長時間動画理解における賢い圧縮器である | AI Navigate