Reconstruction-Guided Slot Curriculum:ビデオのオブジェクト中心学習におけるオブジェクトの過剰フラグメンテーションへの対処

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • slot-attentionを用いるビデオ・オブジェクト中心学習の手法は、再構成目的が暗黙に全スロットを冗長に占有することを促すため、物体が過剰に断片化されがちである。
  • 本論文は、再構成に導かれるスロット・カリキュラム(SlotCurri)を提案する。SlotCurriは少数の粗いスロットから開始し、再構成誤差が高い領域に対してのみ段階的にスロットを追加することで、学習初期の断片化を抑える。
  • 有意味な部分(サブパート)が現れるのは粗い意味が十分に分離してからであるため、SlotCurriはMSEに加えて、局所的なコントラストやエッジ情報を保持し、より鮮明な意味境界を実現するための構造認識損失(structure-aware loss)を導入する。
  • さらに、スロットをフレームを通じて前方へ、続いて後方へと伝播させる推論サイクル(cyclic inference)を提案し、早期フレームに対しても時間的な一貫性を高める。
  • 実験では、YouTube-VISで+6.8、MOVi-Cで+8.3の顕著な前景ARIの改善が報告されており、著者らはコードを公開している。