AI Navigate

スロットが競合するとき: オブジェクト中心学習におけるスロット統合

arXiv cs.CV / 2026/3/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、訓練中にオーバーラップするスロットを統合する軽量なドロップイン操作であるスロット統合を導入し、スロットベースのオブジェクト中心学習におけるオブジェクト因子化を改善します。
  • オーバーラップはスロット注意マップ間の Soft-IoU スコアで定量化され、選択したペアは勾配の流れを保持するベリアン座標に基づく更新で結合されます。また、追加の学習可能モジュールを必要としません。
  • 統合は固定方針に従い、意思決定閾値はオーバーラップ統計から推定され、DINOSAURの特徴再構成パイプラインに統合されます。
  • 実証的に、このアプローチはオブジェクトの因子化とマスク品質を改善し、オブジェクト発見とセグメンテーションのベンチマークで他の適応法を凌駕します。

要旨: スロットベースのオブジェクト中心学習は、画像を潜在スロットの集合として表現し、それらを結合して画像や特徴を復元するデコーダを用います。デコーダはスロットが出力へどのように結合されるかを規定しますが、スロット集合は通常固定であり、スロットの数はあらかじめ決定され、スロットは主に洗練されるだけです。これにより、同じエンティティの重複する領域をめぐって複数のスロットが競合することがあり、異なる領域に焦点を合わせることが難しくなることがあります。我々はスロット統合を導入します。訓練中に重複するスロットを統合するドロップインで軽量な操作です。オーバーラップは、スロットアテンションマップ間の Soft-IoU スコアで定量化し、選択したペアをベリアン座標に基づく更新で結合し、勾配の流れを保持します。統合は固定方針に従い、意思決定閾値はオーバーラップ統計から推定され、追加の学習可能モジュールを必要としません。DINOSAURの確立された特徴再構成パイプラインに統合された本提案手法は、オブジェクトの因子化とマスク品質を改善し、オブジェクト発見とセグメンテーションのベンチマークにおいて他の適応法を上回ります。