広告

Video Patch Pruning:初期トークン削減による効率的な動画インスタンスセグメンテーション

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Vision Transformerベースの動画インスタンスセグメンテーションにおいて、従来未探索だった「初期層でのトークン(パッチ)削減」を可能にするVideo Patch Pruning(VPP)手法を提案しています。
  • 深い層で得られる特徴が前景の選択性を持つという観察に基づき、時間方向の事前知識(temporal prior knowledge)を使って早い層でも重要パッチを選別できる、全微分可能なモジュールを導入しています。
  • dense predictionタスクで最大60%のパッチ削減を達成し、画像向けの従来のパッチプルーニング(約30%程度)より高い削減率で効率化できると報告しています。
  • YouTube-VIS 2021で、パッチ使用率55%未満の高スパース領域でも性能を維持し、最大性能低下0.6%と安定性を示しています。

広告