Video Patch Pruning：初期トークン削減による効率的な動画インスタンスセグメンテーション

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Vision Transformerベースの動画インスタンスセグメンテーションにおいて、従来未探索だった「初期層でのトークン（パッチ）削減」を可能にするVideo Patch Pruning（VPP）手法を提案しています。
深い層で得られる特徴が前景の選択性を持つという観察に基づき、時間方向の事前知識（temporal prior knowledge）を使って早い層でも重要パッチを選別できる、全微分可能なモジュールを導入しています。
dense predictionタスクで最大60%のパッチ削減を達成し、画像向けの従来のパッチプルーニング（約30%程度）より高い削減率で効率化できると報告しています。
YouTube-VIS 2021で、パッチ使用率55%未満の高スパース領域でも性能を維持し、最大性能低下0.6%と安定性を示しています。