BigEarthNet.txt: 大規模マルチセンサー画像-テキストデータセットおよび地球観測ベンチマーク
arXiv cs.CV / 2026/4/1
📰 ニュースSignals & Early TrendsModels & Research
要点
- BigEarthNet.txt は、位置合わせ済みの Sentinel-1 SAR と Sentinel-2 マルチスペクトル画像から構築された、大規模なマルチセンサー地球観測(RS)画像-テキストデータセットとして導入される。
- このデータセットには、464,044 枚の画像と、地理的にアンカーされたキャプション、視覚質問応答、バウンディングボックス予測のための指示文を含む 9.6M 件のテキスト注釈が含まれる。
- 著者らは、BigEarthNet.txt が従来の RS 画像-テキストデータセットよりも高いテキストの豊かさと、より多様な注釈タイプを提供すると報告している。
- 手動で検証されたベンチマーク分割が提供され、RS および CV タスクにおける視覚言語モデルを評価できるようになっており、複雑な土地利用・土地被覆(LULC)クラスに関する現行モデルの限界が示されている。
- BigEarthNet.txt による微調整は、評価された各タスクで一貫した性能向上をもたらすと報告されている。




