Shape-of-You: 野生環境における意味的対応のための融合 Gromov-Wasserstein 最適輸送

arXiv cs.CV / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は偽ラベル生成を融合Gromov-Wasserstein (FGW) 問題として再定式化し、野生環境における監視なし意味的対応のための特徴間類似性と内部構造の一貫性を共同最適化する。
  • Shape-of-You (SoY) は 3D 基盤モデルを用いて幾何学空間における内部構造を定義し、2D 外観だけでは解決できない対称性や繰り返し特徴に起因する曖昧さに対処する。
  • FGW は二次的で計算量が大きいため、著者らはアンカーに基づく線形化で近似し、ノイズのある監視信号として確率的輸送計画を得る。
  • ソフトターゲット損失は輸送計画からのガイダンスとネットワーク予測を動的に混合し、ノイズとアノテーション欠如に頑健な学習フレームワークを構築する。
  • SoY は SPair-71k および AP-10k のベンチマークで最先端の成果を達成し、コードは Shape-of-You に公開されている。
意味的対応は、明示的な対応アノテーションを欠く多様な野生画像を扱う上で不可欠である。最近の2D基盤モデルは強力な特徴を提供する一方、最近傍の偽ラベルを用いた教師なし学習へ適応させるには重要な制約がある。局所的に動作し構造的関係を無視するため、2D外観に頼るだけでは、対称性や繰り返し特徴に起因する幾何学的な曖昧さを解決できない。本研究では、偽ラベル生成を融合Gromov-Wasserstein (FGW) 問題として再定式化し、特徴間の類似性と内部構造の一貫性を同時に最適化することによりこれを解決する。我々のフレームワーク Shape-of-You (SoY) は、3D基盤モデルを用いてこの内部構造を幾何学空間で定義し、前述の曖昧さを解消する。しかしFGWは計算上膨大で二次的な問題であるため、アンカー基づく線形化を通じて近似する。得られる確率的輸送計画は、構造的に一貫性のあるがノイズの多い監視信号を提供する。したがって、この計画からのガイダンスとネットワーク予測を動的に組み合わせるソフトターゲット損失を導入し、このノイズに頑健な学習フレームワークを構築する。SoYは SPair-71k および AP-10k データセットで最先端の性能を達成し、明示的な幾何学的アノテーションなしに意味的対応の新しいベンチマークを確立する。コードは Shape-of-You で入手可能。