要旨: 画像と言語のモデルをリモートセンシング画像に適応させることは本質的な課題である。衛星データの視覚分布と言語分布のいずれもが、自然画像の事前学習コーパスから大きく外れているためだ。それでもなお、プロンプトによる投入(prompting)が支配的な展開パラダイムとして残っている。これは、領域特化の言語が、凍結されたモデル表現を専門的なタスクへ導けるという前提に駆動されている。我々は、この前提が顕著な領域である衛星画像のクラウドセグメンテーションに対して、これを直接検証する。CloudSEN12+ のクラウドセグメンテーション・ベンチマーク上で CLIPSeg を用い、単純なラベル、領域の専門用語、外観記述子、文脈手がかりにまたがる 60 種類のプロンプト変種を評価したところ、どの変種もゼロショットのベースライン(0.255 mIoU)を下回り、設計されたプロンプトでは 0.07 mIoU までスコアが低下した。どれほど言語を洗練しても、CLIP の自然画像における表現と、衛星のスペクトル画像との差を埋めることはできない。これに対し、ラベル付きデータわずか 0.1%(約 8 枚)による教師ありファインチューニングは、全体としてゼロショット性能を上回り、データ 5〜10% で最大到達可能な mIoU の約 85% を回復する。完全なファインチューニングは一貫して、低ランク適応より 0.03〜0.09 mIoU 優れており、ギャップが最大となるのはスペクトル的に曖昧なクラスである。さらに、ラベル付きデータ 0.5〜1% では、これらのクラスで一時的に性能が低下し、その後回復する。こうした教師ありによるディップは、集計された mIoU では見えなくなる場合がある。視覚言語モデルを専門的な画像に適応させる実務者に向けて、我々の結果は明確なメッセージを与える。ラベル付きデータはプロンプトの「高価な代替物」ではない。価値のある道筋なのだ。
低データの教師あり適応は、ドメインシフト下でのクラウド領域セグメンテーションにおいてプロンプトを上回る
arXiv cs.CV / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、リモートセンシングに対するビジョン・言語モデルのプロンプトによる誘導という一般的な仮定、すなわち、ドメイン固有の言語が強いドメインシフト下で凍結表現をクラウド領域セグメンテーションへと導けるという前提を検証している。
- CloudSEN12+ベンチマークで60種類のCLIPSegプロンプト・バリアントを用いた結果、いずれのプロンプト手法もゼロショット基準(0.255 mIoU)を下回り、設計されたプロンプトではmIoUが0.07まで低下した。
- 極めて少量のラベル付きデータ(0.1% ≈ 8枚)による教師あり微調整は、ゼロショットを超える全体性能をもたらし、さらに5〜10%のラベル付きデータで、到達可能な最高mIoUの約85%を回復できる。
- 完全微調整は低ランク適応よりも0.03〜0.09 mIoU上回り、とりわけスペクトル的に曖昧なクラウドクラスで最大の改善が見られた。
- 著者らは、曖昧なクラスにおいてラベル付きデータが0.5〜1%の範囲で「教師ありの落ち込み(supervision dip)」が発生することを観察しており、これが集計したmIoUでは見えない可能性があることを強調している。適応の際にはクラスごとの監視が必要である。




