Decouple and Rectify:オープンボキャブラリー・リモートセンシング分割に対する意味保存的構造強調

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、CLIPのグローバルで言語に整列した視覚特徴が、細かな構造境界の描定ではしばしば性能が低下することを指摘し、オープンボキャブラリー・リモートセンシング分割に取り組む。
  • それに対し、DR-Segというデカップル&リクト(分離して整流する)枠組みを提案する。CLIP特徴チャネルを、意味に支配されるサブスペースと構造に支配されるサブスペースに分割し、言語整列された意味的特徴を損なうことなく、DINOベースの構造強調を適用する。
  • 事前知識に基づくグラフ整流モジュールが、DINOの指導のもと高忠実度の構造プライアを注入し、空間的な境界描写を改善するための洗練された分岐を生成する。
  • 不確実性に導かれる適応的融合モジュールが、洗練されたDINO/整流分岐と元のCLIP分岐を、不確実性に応じて動的に組み合わせ、最終予測を行う。
  • 8つのリモートセンシングベンチマークでの実験により、DR-Segが最先端(SOTA)の性能を達成し、オープンボキャブラリーな意味的グラウンディングを維持しつつ境界品質が向上したことを示している。

Abstract

遠隔センシング(RS)分野におけるオープン語彙のセマンティックセグメンテーションでは、言語に整合した認識と、きめ細かな空間的輪郭の描定の両方が必要です。CLIPは堅牢なセマンティックな汎化を提供しますが、そのグローバルに整合した視覚表現は本質的に構造的な詳細を捉えるのが難しいという課題があります。近年の手法では、RSで事前学習したDINO特徴を導入することでこの欠点を補おうとしています。しかし、これらの手法はCLIP表現を単一のセマンティック空間として扱うため、構造的な強調が必要な場所を特定することができず、境界を効果的に描定できないだけでなく、CLIPのセマンティック整合性を損なうリスクも伴います。本論文では、この限界に対処するために、DR-Segという新しいデカップル&リクティファイ(decouple-and-rectify)フレームワークを提案します。提案手法は、CLIPの特徴チャネルが一様なセマンティック空間を形成するのではなく、異なる機能的な不均一性を示すという重要な観察に動機づけられています。この洞察に基づき、DR-SegはCLIPの特徴を、セマンティクス優位のサブスペースと構造優位のサブスペースにデカップルし、言語に整合したセマンティクスを歪めることなく、DINOによって狙いを定めた構造強調を可能にします。その後、事前情報主導のグラフ・リクティファイ(rectification)モジュールが、DINOのガイダンスのもとで高忠実度の構造的プライア(prior)を注入して洗練されたブランチを形成し、さらに、不確実性ガイダンスの適応的融合モジュールが、この洗練されたブランチを元のCLIPブランチと動的に統合して最終予測を行います。8つのベンチマークにわたる包括的な実験により、DR-Segが新たな最先端の状態(state-of-the-art)を確立することを示します。