現実的なオープンボキャブラリー遠隔検知セグメンテーションに向けて:ベンチマークとベースライン

arXiv cs.CV / 2026/4/20

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文では、オープンワールドの地理空間ニーズをより反映した形でオープンボキャブラリー遠隔検知画像セグメンテーションを評価するための、大規模でアプリケーション指向のベンチマークOVRSISBenchV2を提案しています。
  • OVRSIS95K(約9.5万の画像–マスクペア、35のセマンティックカテゴリ)を導入し、さらに10のダウンストリームデータセットで拡張することで、評価規模を17万枚の画像・128カテゴリへ増やし、多様性と難易度を高めています。
  • OVRSISBenchV2は一般的なオープンボキャブラリーセグメンテーションにとどまらず、建物抽出、道路抽出、洪水検出のためのダウンストリーム手順も含め、実運用に近い要求を反映しています。
  • 著者らはPi-Segというベースラインを提案し、「ポジティブ・インセンティブ・ノイズ」メカニズムを用いて、学習可能で意味に導かれた摂動により学習中の視覚-テキスト特徴空間を広げ、転移性を高めています。
  • OVRSISBenchV1、OVRSISBenchV2、ダウンストリームタスクにまたがる実験の結果、Pi-Segは特に難易度の高いOVRSISBenchV2で強力かつ一貫した性能を示し、コードとデータセットは公開されています。

Abstract

オープンボキャブラリーリモートセンシング画像セグメンテーション(OVRSIS)は、断片化したデータセット、限られた学習の多様性、そして現実的な地理空間アプリケーションの要求を反映する評価ベンチマークの欠如により、十分に研究されていません。私たちの先行研究である extit{OVRSISBenchV1} は、初期のデータセット横断評価プロトコルを確立しましたが、その範囲の限界は、現実のオープンワールドにおける一般化を評価するには不十分です。そこで本研究では、この課題に対処するために extit{OVRSISBenchV2} を提案します。これは、OVRSIS 向けの大規模かつアプリケーション志向のベンチマークです。まず、 extbf{OVRSIS95K} を構築します。これは、多様なリモートセンシングのシーンにまたがる 35 の一般的な意味カテゴリを対象として、約 95K の画像--マスクペアからなるバランスの取れたデータセットです。OVRSIS95K と 10 の下流データセットに基づいて、OVRSISBenchV2 は 170K の画像と 128 のカテゴリを含み、シーンの多様性、意味のカバレッジ、そして評価の難易度を大幅に拡張します。通常のオープンボキャブラリーセグメンテーションに加えて、さらに建物抽出、道路抽出、洪水検出のための下流プロトコルを含めることで、現実的な地理空間アプリケーションの要求や複雑なデプロイ状況をよりよく反映します。また、OVRSIS のためのベースラインとして extbf{Pi-Seg} を提案します。Pi-Seg は、 extbf{positive-incentive noise}(正のインセンティブノイズ)メカニズムを通じて転移性を向上させます。ここでは、学習可能で意味に導かれた摂動により、学習中に視覚--テキスト特徴空間が拡張されます。OVRSISBenchV1、OVRSISBenchV2、および下流タスクに関する広範な実験の結果、Pi-Seg は強力で一貫した性能を示し、特により難易度の高い OVRSISBenchV2 ベンチマークで顕著です。本研究の結果は、現実的なベンチマーク設計の重要性と、摂動に基づく転移の有効性の両方を示しています。コードとデータセットは \\href{https://github.com/LiBingyu01/RSKT-Seg/tree/Pi-Seg}{LiBingyu01/RSKT-Seg/tree/Pi-Seg} にて公開されています。