AdaSpark: 効率的な長時間ビデオ理解のための適応的スパース性
arXiv cs.CV / 2026/4/10
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- AdaSparkは、密な処理による高い計算コストを回避することで、長尺ビデオに対するVideo-LLMを実用可能にするための適応的スパース性フレームワークを提案する。
- 本手法はビデオを3Dの時空間キューブに分割し、共同設計された文脈対応コンポーネント(キューブ選択のAdaS-Attn、トークン選択のAdaS-FFN)を用いて、クエリごとに重要な部分へ計算資源を集中させる。
- エントロピーに基づく(Top-p)選択戦略により、入力の複雑さに応じてリソースを動的に配分し、剛直なスパースパターンに依存しない。
- 実験では、密モデルと同等に近い性能を維持しつつ、時間スケールが「時」のベンチマークで微細な長期時間的依存関係も保ったまま、最大57%のFLOPs削減が報告されている。




