PAT-VCM: マシン向けビデオ符号化のためのプラグアンドプレイ補助トークン

arXiv cs.CV / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • PAT-VCMは、従来の「マシン向け動画符号化」が下流タスクやモデルに強く結び付いてスケールしづらい点を、共通の基盤圧縮ストリームに軽量なタスク向け補助トークンを追加することで解決する枠組みを提案している。
  • 補助情報は、視覚残差トークン、プロンプト/コントロールトークン、セマンティックトークンの3方式に対応し、タスクごとの学習や別個のコーデック再設計を避けることを狙っている。
  • 分割(セグメンテーション)、深度推定、意味認識の評価では、検出向けの共通補助ブランチによる再現性のある第1段階改良と、タスク特化ブランチによる精度向上が示されている。
  • セグメンテーションではプロンプトトークンがわずかなビットレート増加で改善をもたらし、意味トークンでは極めて低オーバーヘッドで強い認識性能が報告されている。
  • 全体として、タスク結合の強いVCM設計ではなく「共有圧縮表現+軽量タスク補助トークン」という構成が、実用的でスケーラブルな代替になり得ることを示唆している。

Abstract

機械向けの既存の動画符号化は、多くの場合、特定の下流タスクとモデルに向けて学習されています。その結果、圧縮表現が最終タスクに強く結び付いてしまい、複数のタスクにまたがってスケールしたり、モデル更新に適応したりすることが難しくなります。私たちは、機械向け動画符号化のためのプラグアンドプレイ型の補助トークン枠組みであるPAT-VCMを提案します。PAT-VCMは、共有のベースライン圧縮ストリームを維持し、そこに軽量なタスク対応型の補助トークンを追加することで、各下流タスクが別々に各タスク用の符号化器を再学習することなく、必要な情報を回復できるようにします。この枠組みは、3種類の補助情報の形式をサポートします。すなわち、視覚的残差トークン、プロンプト/制御トークン、そしてセマンティックトークンです。私たちは、セグメンテーション、深度推定、セマンティック認識においてPAT-VCMを評価します。共有の検出志向型補助ブランチが再利用可能な最初の改良を提供し、タスク固有の視覚ブランチがセグメンテーションと深度を改善し、プロンプトトークンが、ビットレートのわずかな増加でさらなるセグメンテーション向上をもたらし、セマンティックトークンは、極めて低いオーバーヘッドで強い認識性能を達成します。これらの結果は、軽量なタスク対応型補助トークンと組み合わせた共有の圧縮表現が、タスクに強く結び付いたVCM設計の実用的でスケーラブルな代替案であることを示唆しています。