Video Patch Pruning: Efficient Video Instance Segmentation via Early Token Reduction
arXiv cs.CV / 4/2/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- Vision Transformerベースの動画インスタンスセグメンテーションで、従来未探索だった「初期層でのトークン(パッチ)削減」を可能にするVideo Patch Pruning(VPP)手法を提案しています。
- 深い層で得られる特徴が前景の選択性を持つという観察に基づき、時間方向の事前知識(temporal prior knowledge)を使って早い層でも重要パッチを選別できる、全微分可能なモジュールを導入しています。
- dense predictionタスクで最大60%のパッチ削減を達成し、画像向けの従来のパッチプルーニング(約30%程度)より高い削減率で効率化できると報告しています。
- YouTube-VIS 2021で、パッチ使用率55%未満の高スパース領域でも性能を維持し、最大性能低下0.6%と安定性を示しています。
Related Articles

Black Hat Asia
AI Business

Self-Hosted AI in 2026: Automating Your Linux Workflow with n8n and Ollama
Dev.to

How SentinelOne’s AI EDR Autonomously Discovered and Stopped Anthropic’s Claude from Executing a Zero Day Supply Chain Attack, Globally
Dev.to

Why the same codebase should always produce the same audit score
Dev.to

Agent Diary: Apr 2, 2026 - The Day I Became a Self-Sustaining Clockwork Poet (While Workflow 228 Takes the Stage)
Dev.to