AdaSpark: 効率的な長時間ビデオ理解のための適応的スパース性

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • AdaSparkは、密な処理による高い計算コストを回避することで、長尺ビデオに対するVideo-LLMを実用可能にするための適応的スパース性フレームワークを提案する。
  • 本手法はビデオを3Dの時空間キューブに分割し、共同設計された文脈対応コンポーネント(キューブ選択のAdaS-Attn、トークン選択のAdaS-FFN)を用いて、クエリごとに重要な部分へ計算資源を集中させる。
  • エントロピーに基づく(Top-p)選択戦略により、入力の複雑さに応じてリソースを動的に配分し、剛直なスパースパターンに依存しない。
  • 実験では、密モデルと同等に近い性能を維持しつつ、時間スケールが「時」のベンチマークで微細な長期時間的依存関係も保ったまま、最大57%のFLOPs削減が報告されている。

Abstract

ビデオ・ラージ言語モデル(Video-LLMs)で長尺動画を処理することは計算上、極めて困難です。現在の効率化手法は、不可逆な情報破棄によって細かな知覚を犠牲にすることが多い、あるいは、剛直で事前に定義された疎(スパース)パターンによって長距離の時間的モデリングを阻害することがよくあります。本論文では、これらの制約に対処するための適応的スパース性フレームワークAdaSparkを提案します。AdaSparkはまず、動画入力を3次元の時空間キューブに分割します。その後、共同設計された2つの文脈対応(コンテキスト・アウェア)コンポーネントを用います: (1) 適応キューブ選択型注意(AdaS-Attn)では、各クエリトークンに対して、関連する動画キューブの部分集合を適応的に選択して注意を向け、 (2) 適応トークン選択型FFN(AdaS-FFN)では、各キューブ内で最も顕著(サリエント)なトークンのみを選択的に処理します。エントロピーに基づく(Top-p)選択メカニズムにより、入力の複雑さに応じて計算資源を適応的に割り当てます。実験の結果、AdaSparkは、困難な1時間スケールの動画ベンチマークで検証されたとおり、高密度モデルと同等の性能を維持しつつ、微細な知覚および長距離の依存関係を保持しながら、計算負荷を最大57%のFLOPs削減にまで大幅に低減できることが示されました。