PAT-VCM: Plug-and-Play Auxiliary Tokens for Video Coding for Machines
arXiv cs.CV / 4/16/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- PAT-VCMは、従来の「動画符号化 for Machines」が下流タスクやモデルに強く結び付いてスケールしづらい点を、共通の基盤圧縮ストリームに軽量なタスク向け補助トークンを追加することで解決する枠組みを提案している。
- 補助情報は、視覚残差トークン、プロンプト/コントロールトークン、セマンティックトークンの3方式に対応し、タスクごとの学習や別個のコーデック再設計を避けることを狙っている。
- 分割(セグメンテーション)、深度推定、意味認識の評価では、検出向けの共通補助ブランチによる再現性のある第1段階改良と、タスク特化ブランチによる精度向上が示されている。
- セグメンテーションではプロンプトトークンがわずかなビットレート増加で改善をもたらし、意味トークンでは極めて低オーバーヘッドで強い認識性能が報告されている。
- 全体として、タスク結合の強いVCM設計ではなく「共有圧縮表現+軽量タスク補助トークン」という構成が、実用的でスケーラブルな代替になり得ることを示唆している。
Related Articles

Black Hat Asia
AI Business

Introducing Claude Opus 4.7
Anthropic News

AI traffic to US retailers rose 393% in Q1, and it’s boosting their revenue too
TechCrunch

Who Audits the Auditors? Building an LLM-as-a-Judge for Agentic Reliability
Dev.to

"Enterprise AI Cost Optimization: How Companies Are Cutting AI Infrastructure Sp
Dev.to