Sentinel2Cap：人手注釈付きマルチモーダルリモートセンシング画像キャプション用ベンチマークデータセット

arXiv cs.CV / 2026/5/6

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

この論文では、Sentinel-1 SARとSentinel-2マルチスペクトルの画像パッチ（10mおよび20m分解能）を用いた、人手注釈付きマルチモーダルのリモートセンシング画像キャプション用ベンチマークデータセット「Sentinel2Cap」を提案しています。
キャプションは手作業で作成され、意味的な正確さと文の言語品質の両方について入念に検証されており、特にSARや中解像度センサーに関してキャプションデータセットが不足している領域を補います。
著者らはQwen3-VL-8B-Instructによるゼロショット評価を行い、RGB、マルチスペクトル、SAR擬似RGBの3つの表現でモダリティごとの難易度を比較しています。
結果として、RGBが最も高いキャプション生成性能を示す一方で、SARは視覚言語モデルにとって依然として大きく難しいことが示されます。
モダリティ固有の文脈プロンプトを用いることで、全指標にわたりキャプション性能が一貫して改善することが分かり、クロスモーダルなリモートセンシング理解におけるプロンプト設計の有効性が示唆されます。