DouC:学習不要のオープンワード語彙セグメンテーションのためのデュアルブランチCLIP

arXiv cs.CV / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • DouCは、オープンワード語彙のセマンティックセグメンテーションに向けた、学習不要のデュアルブランチCLIPフレームワークであり、トークンの信頼性と空間的な整合性の両方を改善することを狙っています。
  • OG-CLIPは、軽量な推論時トークンゲーティングによってパッチ単位の信頼性を高め、局所トークンの不確実性に対処します。
  • FADE-CLIPは、凍結したビジョン基盤モデルに導かれるプロキシ注意(proxy attention)を通じて外部の構造的事前知識を注入し、構造を意識した相互作用を強化します。
  • 2つのブランチはlogitレベルで融合され、必要に応じて事後処理でインスタンス認識の補正を適用できます。
  • 8つのベンチマークと複数のCLIPバックボーンでの実験により、DouCは既存の学習不要手法を一貫して上回り、追加の学習可能パラメータや再学習なしでバックボーン能力に応じてスケールすることが示されています。