ビデオのオブジェクト中心学習における時間的整合性の再考：予測から対応付けへ

arXiv cs.CV / 2026/5/6

📰 ニュースModels & Research

共有:

要点

従来のビデオのオブジェクト中心学習では、学習したダイナミクスモジュールで将来のオブジェクト表現（スロット）を予測し、時間的整合性を保つのが一般的だが、本研究はこれらの予測が離散的な対応付け問題の高コストな近似になっていると主張しています。
現代の自己教師ありビジョンバックボーンがすでにインスタンス識別性の高い特徴を符号化しているため、アイデンティティの一貫性のために時間的予測が不要になり得ることを示しています。
提案手法 Grounded Correspondence は、学習された遷移関数の代わりに、スロット表現間で二部グラフのマッチング（ハンガリアンマッチング）を用いてフレーム間の対応を決めることでアイデンティティを維持します。
スロットは凍結したバックボーン特徴から注目領域として初期化し、時間的モデリングに学習可能なパラメータをゼロにしながらも MOVi-D、MOVi-E、YouTube-VIS で競争力のある性能を達成しています。

要旨: ビデオのオブジェクト中心学習における事実上のアプローチは、学習されたダイナミクス・モジュールによって未来のオブジェクト表現（いわゆるスロット）を予測することで、時間的な一貫性を維持するものです。私たちは、これらの予測器が離散的な対応付け問題の高価な近似として機能していることを示します。現代の自己教師ありの視覚バックボーンは、オブジェクトを確実に識別するインスタンス識別的な特徴をすでに符号化しています。これらの特徴を活用することで、学習された時間予測の必要がなくなります。私たちは、Grounded Correspondence（グラウンデッド対応付け）という枠組みを導入します。この枠組みでは、学習された遷移関数を決定論的な二部マッチングで置き換えます。スロットは、フリーズしたバックボーン特徴における目立つ領域から初期化されます。スロット表現に対するハンガリアン・マッチングにより、フレーム間の同一性が維持されます。このアプローチは、時間的モデリングのための学習可能なパラメータをゼロにしながらも、MOVi-D、MOVi-E、YouTube-VISにおいて競争力のある性能を達成します。プロジェクトページ: https://magenta-sherbet-85b101.netlify.app/

DXは継続、AI活用の新需要を ITサービス（SIer）の業界地図

日経XTECH

Google、Gemma 4向け「Multi-Token Prediction（MTP）Drafters」をリリース——品質を落とさず最大3倍高速推論

MarkTechPost

Solidity LMがOpusを上回る

Reddit r/LocalLLaMA

量子・重力・古典相互作用を一つの作用で扱う方程式と、その実装メモ

Qiita

Qwen 3.6 27B の量子化（BF16、Q8_0、Q6_K、Q5_K_XL、Q4_K_XL、IQ4_XS、IQ3_XXS…）における品質比較

Reddit r/LocalLLaMA

ビデオのオブジェクト中心学習における時間的整合性の再考：予測から対応付けへ

要点

関連記事

DXは継続、AI活用の新需要を ITサービス（SIer）の業界地図

Google、Gemma 4向け「Multi-Token Prediction（MTP）Drafters」をリリース——品質を落とさず最大3倍高速推論

Solidity LMがOpusを上回る

量子・重力・古典相互作用を一つの作用で扱う方程式と、その実装メモ

Qwen 3.6 27B の量子化（BF16、Q8_0、Q6_K、Q5_K_XL、Q4_K_XL、IQ4_XS、IQ3_XXS…）における品質比較

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer