PAT-VCM: Plug-and-Play Auxiliary Tokens for Video Coding for Machines

arXiv cs.CV / 4/16/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • PAT-VCMは、従来の「動画符号化 for Machines」が下流タスクやモデルに強く結び付いてスケールしづらい点を、共通の基盤圧縮ストリームに軽量なタスク向け補助トークンを追加することで解決する枠組みを提案している。
  • 補助情報は、視覚残差トークン、プロンプト/コントロールトークン、セマンティックトークンの3方式に対応し、タスクごとの学習や別個のコーデック再設計を避けることを狙っている。
  • 分割(セグメンテーション)、深度推定、意味認識の評価では、検出向けの共通補助ブランチによる再現性のある第1段階改良と、タスク特化ブランチによる精度向上が示されている。
  • セグメンテーションではプロンプトトークンがわずかなビットレート増加で改善をもたらし、意味トークンでは極めて低オーバーヘッドで強い認識性能が報告されている。
  • 全体として、タスク結合の強いVCM設計ではなく「共有圧縮表現+軽量タスク補助トークン」という構成が、実用的でスケーラブルな代替になり得ることを示唆している。

Abstract

Existing video coding for machines is often trained for a specific downstream task and model. As a result, the compressed representation becomes tightly coupled to the end task, making it difficult to scale across multiple tasks or adapt to model updates. We propose PAT-VCM, a plug-and-play auxiliary-token framework for video coding for machines. PAT-VCM keeps a shared baseline compressed stream and augments it with lightweight task-aware auxiliary tokens, allowing different downstream tasks to recover the information they need without retraining a separate codec for each task. The framework supports three forms of auxiliary information: visual residual tokens, prompt/control tokens, and semantic tokens. We evaluate PAT-VCM on segmentation, depth estimation, and semantic recognition. A shared detection-oriented auxiliary branch provides a reusable first refinement, task-specific visual branches improve segmentation and depth, prompt tokens provide further segmentation gains at negligible bitrate, and semantic tokens achieve strong recognition performance with extremely low overhead. These results suggest that a shared compressed representation, combined with lightweight task-aware auxiliary tokens, is a practical and scalable alternative to tightly task-coupled VCM design.