BigEarthNet.txt: 大規模マルチセンサー画像-テキストデータセットおよび地球観測ベンチマーク

arXiv cs.CV / 2026/4/1

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

BigEarthNet.txt は、位置合わせ済みの Sentinel-1 SAR と Sentinel-2 マルチスペクトル画像から構築された、大規模なマルチセンサー地球観測（RS）画像-テキストデータセットとして導入される。
このデータセットには、464,044 枚の画像と、地理的にアンカーされたキャプション、視覚質問応答、バウンディングボックス予測のための指示文を含む 9.6M 件のテキスト注釈が含まれる。
著者らは、BigEarthNet.txt が従来の RS 画像-テキストデータセットよりも高いテキストの豊かさと、より多様な注釈タイプを提供すると報告している。
手動で検証されたベンチマーク分割が提供され、RS および CV タスクにおける視覚言語モデルを評価できるようになっており、複雑な土地利用・土地被覆（LULC）クラスに関する現行モデルの限界が示されている。
BigEarthNet.txt による微調整は、評価された各タスクで一貫した性能向上をもたらすと報告されている。

Abstract

Vision-langugageモデル（VLMs）はコンピュータビジョン（CV）において強い性能を示している一方で、リモートセンシング（RS）データに対する性能は、多様なテキスト注釈を備えた大規模なマルチセンサーRS画像-テキストデータセットが不足しているため、依然として限られています。既存のデータセットは主に、短い、あるいは根拠が弱いキャプション付きの航空Red-Green-Blue（RGB）画像を含むことが多く、注釈タイプの多様性も限られています。この制約に対処するため、私たちはBigEarthNet.txtを導入します。これは、地球観測における複数のタスクにわたって、指示駆動型の画像-テキスト学習を推進することを目的とした、大規模なマルチセンサーの画像-テキストデータセットです。BigEarthNet.txtには、9.6M件のテキスト注釈を含む、対応付け（co-registered）されたSentinel-1合成開口レーダー画像とSentinel-2マルチスペクトル画像計464,044件が含まれます。注釈には以下が含まれます：i）土地利用・土地被覆（LULC）クラス、その空間関係、環境的文脈を記述する、地理的に根拠づけられたキャプション；ii）異なるタスクに関連する視覚質問応答のペア；iii）バウンディングボックス予測のための、言い換え表現（referring expression）検出に関する指示。比較的な統計分析により、BigEarthNet.txtがテキストの豊かさと注釈タイプの多様性の点で、既存のRS画像-テキストデータセットを上回ることを示します。さらに、RSとCVにおいてVLMを評価するための、手動で検証したベンチマーク分割も確立しました。その結果、これらのモデルは複雑なLULCクラスを扱うタスクにおいて限界があることが分かります。一方で、BigEarthNet.txtを用いた微調整により、検討したすべてのタスクで一貫した性能向上が得られます。