Video Patch Pruning:初期トークン削減による効率的な動画インスタンスセグメンテーション
arXiv cs.CV / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Vision Transformerベースの動画インスタンスセグメンテーションにおいて、従来未探索だった「初期層でのトークン(パッチ)削減」を可能にするVideo Patch Pruning(VPP)手法を提案しています。
- 深い層で得られる特徴が前景の選択性を持つという観察に基づき、時間方向の事前知識(temporal prior knowledge)を使って早い層でも重要パッチを選別できる、全微分可能なモジュールを導入しています。
- dense predictionタスクで最大60%のパッチ削減を達成し、画像向けの従来のパッチプルーニング(約30%程度)より高い削減率で効率化できると報告しています。
- YouTube-VIS 2021で、パッチ使用率55%未満の高スパース領域でも性能を維持し、最大性能低下0.6%と安定性を示しています。




