コンセンサスの追求:幾何学・セマンティックをオンザフライで再調整するオープン語彙リモートセンシング意味セグメンテーション

arXiv cs.AI / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文では、SeeCo(Seeking Consensus)という学習不要のプラグアンドプレイ手法を提案し、リモートセンシングのオープン語彙意味セグメンテーション(OVSS)において、シーン差を無視した静的推論が生むあいまいさを解消します。
  • SeeCoは推論中に任意のOVSSモデルを再調整し、2種類のコンセンサスを追求します。具体的には、複数ビューの整合性に基づく幾何学的コンセンサス学習(GCL)と、テキスト記述に適応した校正によるセマンティック・コンセンサス学習(SCL)です。
  • オンライン・コンセンサス・インジェクタ(OCI)を用いて両方のコンセンサス信号を注入し、関連領域の過小活性化やセマンティックバイアスの軽減につながると主張しています。
  • 8つのリモートセンシングOVSSベンチマークで一貫した改善が報告されており、汎用性と有効性が示されたとしています。
  • 特徴は、特別な学習パイプラインを不要にしつつ、各シーンごとにセマンティックと幾何学の整合を動的に合わせ込む点です。

要旨: リモートセンシング画像におけるオープン語彙セマンティックセグメンテーション(OVSS)は、未定義の土地被覆カテゴリを特定するためにテキスト記述を用いる有望な課題である。顕著な進歩にもかかわらず、既存の手法は一般に静的な推論パラダイムを採用しており、各シーンの異なる分布を見落としている。その結果、多様な土地被覆において意味の曖昧さが生じ、前景の活性化が不十分になる。これに動機づけられ、我々はSeek Consensus(SeeCo)と称する、リモートセンシング画像における学習不要型OVSSモデルの性能を向上させるプラグアンドプレイ型フレームワークを提案する。これは、二重のコンセンサスを求めることで任意のOVSSモデルを推論時に動的に再調整し、幾何コンセンサス学習(GCL)として複数ビューにおける整合的な観測を通じて学習し、意味コンセンサス学習(SCL)としてテキスト記述に適応したキャリブレーションを通じて意味を調整する。これにより、視覚的意味とテキスト的意味の協調的な再キャリブレーションが促進される。これら二つのコンセンサスはオンライン・コンセンサス・インジェクタ(OCI)により注入され、過小活性化および意味バイアスを効果的に緩和する。SeeCoは特定の学習プロセスを必要としないが、推論中に各固有のシーンごとに意味—幾何の整合を再調整する。リモートセンシングOVSSの8つのベンチマークに対する大規模な実験により、一貫した改善が示され、その有効性と汎用性が証明された。