GIFT：効率的な動画理解のためのグローバルな置換不能フレーム・ターゲティング

arXiv cs.CV / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、Video Large Language Modelsにおける密なフレーム処理の重い計算コストを削減しつつ動画理解の精度を向上させるために、GIFT（Global Irreplaceability Frame Targeting）を提案する。
GIFTは学習不要であり、Directed Diversityを用いて、関連性に条件付けられた固有性を測ることで内在的な置換不能スコアを計算し、貪欲な局所最適に陥るフレーム選択を回避しながらフレームを選択する。
予算に配慮したRefinement戦略を採用し、まず高い置換不能性を持つコア集合を選び、その後フレーム予算が増えるにつれて時間的な文脈を段階的に拡張する。
実験では、一様サンプリングに対して、LLaVA-Video-7Bが長尺動画ベンチマークで最大平均改善12.5%まで報告されている。

note

note

note

note

note