PAT-VCM: マシン向けビデオ符号化のためのプラグアンドプレイ補助トークン
arXiv cs.CV / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- PAT-VCMは、従来の「マシン向け動画符号化」が下流タスクやモデルに強く結び付いてスケールしづらい点を、共通の基盤圧縮ストリームに軽量なタスク向け補助トークンを追加することで解決する枠組みを提案している。
- 補助情報は、視覚残差トークン、プロンプト/コントロールトークン、セマンティックトークンの3方式に対応し、タスクごとの学習や別個のコーデック再設計を避けることを狙っている。
- 分割(セグメンテーション)、深度推定、意味認識の評価では、検出向けの共通補助ブランチによる再現性のある第1段階改良と、タスク特化ブランチによる精度向上が示されている。
- セグメンテーションではプロンプトトークンがわずかなビットレート増加で改善をもたらし、意味トークンでは極めて低オーバーヘッドで強い認識性能が報告されている。
- 全体として、タスク結合の強いVCM設計ではなく「共有圧縮表現+軽量タスク補助トークン」という構成が、実用的でスケーラブルな代替になり得ることを示唆している。




