ビデオのオブジェクト中心学習における時間的整合性の再考:予測から対応付けへ

arXiv cs.CV / 2026/5/6

📰 ニュースModels & Research

要点

  • 従来のビデオのオブジェクト中心学習では、学習したダイナミクスモジュールで将来のオブジェクト表現(スロット)を予測し、時間的整合性を保つのが一般的だが、本研究はこれらの予測が離散的な対応付け問題の高コストな近似になっていると主張しています。
  • 現代の自己教師ありビジョンバックボーンがすでにインスタンス識別性の高い特徴を符号化しているため、アイデンティティの一貫性のために時間的予測が不要になり得ることを示しています。
  • 提案手法 Grounded Correspondence は、学習された遷移関数の代わりに、スロット表現間で二部グラフのマッチング(ハンガリアンマッチング)を用いてフレーム間の対応を決めることでアイデンティティを維持します。
  • スロットは凍結したバックボーン特徴から注目領域として初期化し、時間的モデリングに学習可能なパラメータをゼロにしながらも MOVi-D、MOVi-E、YouTube-VIS で競争力のある性能を達成しています。

要旨: ビデオのオブジェクト中心学習における事実上のアプローチは、学習されたダイナミクス・モジュールによって未来のオブジェクト表現(いわゆるスロット)を予測することで、時間的な一貫性を維持するものです。私たちは、これらの予測器が離散的な対応付け問題の高価な近似として機能していることを示します。現代の自己教師ありの視覚バックボーンは、オブジェクトを確実に識別するインスタンス識別的な特徴をすでに符号化しています。これらの特徴を活用することで、学習された時間予測の必要がなくなります。私たちは、Grounded Correspondence(グラウンデッド対応付け)という枠組みを導入します。この枠組みでは、学習された遷移関数を決定論的な二部マッチングで置き換えます。スロットは、フリーズしたバックボーン特徴における目立つ領域から初期化されます。スロット表現に対するハンガリアン・マッチングにより、フレーム間の同一性が維持されます。このアプローチは、時間的モデリングのための学習可能なパラメータをゼロにしながらも、MOVi-D、MOVi-E、YouTube-VISにおいて競争力のある性能を達成します。プロジェクトページ: https://magenta-sherbet-85b101.netlify.app/