RSRCC:リトリーバル拡張されたBest-of-Nランキングで構築するリモートセンシング地域変化理解ベンチマーク

arXiv cs.CV / 2026/4/23

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • RSRCCは、変化の発生場所を示すだけでなく、自然言語で「何が変わったのか」を説明することに重点を置いた、新しいリモートセンシングの変化QAベンチマークである。
  • データセットには合計126kの質問(訓練87k、検証17.1k、テスト22k)が含まれ、局所的で変化に固有なセマンティック推論を要求する構成となっている。
  • 著者らは、RSRCCが微細な推論ベースの教師データを明示的に目的としたリモートセンシングの変化QAベンチマークとして初めてであると主張している。
  • RSRCCは、階層型の半教師ありキュレーション手順で構築され、セマンティックセグメンテーションから候補領域を抽出し、画像-テキスト埋め込みでふるいにかけたうえで、Best-of-Nランキングを用いたリトリーバル拡張のビジョン・ランゲージ・キュレーションにより曖昧さを解消してノイズを抑える。
  • データセットは、指定されたHugging Faceのリンクで公開されており、今後の研究や評価に利用できる。

要旨: 従来の変化検出は変化がどこで起こったかを特定しますが、自然言語として「何が変わったのか」を説明しません。既存のリモートセンシング変化キャプション作成データセットは一般に、画像全体レベルの差分を記述することに留まり、きめ細かな局所的な意味論的推論はほとんど探究されていません。このギャップを埋めるために、我々は126kの質問を含むリモートセンシング変化に関する質問応答の新しいベンチマークであるRSRCCを提示します。質問は87kのトレーニング、17.1kの検証、22kのテスト・インスタンスに分割されています。先行データセットと異なり、RSRCCは、特定の意味の変化について推論することを要求する、局所化された変化に特化した質問を基盤として構築されています。筆者らの知る限り、このようなきめ細かな推論に基づく教師信号のために明示的に設計された、リモートセンシング変化に関する質問応答ベンチマークは初めてです。RSRCCを構築するために、階層的な半教師ありキュレーション(選定)パイプラインを導入します。そこでは、最終的な曖昧さ解消の重要な段階として、Best-of-Nランキングを用います。まず、候補となる変化領域をセマンティックセグメンテーションマスクから抽出し、次に画像-テキストの埋め込みモデルで初期スクリーニングを行い、最後にBest-of-Nランキングを伴う検索拡張型のビジョン-言語キュレーションによって検証します。このプロセスにより、意味的に有意味な変化を保持しつつ、ノイズや曖昧な候補をスケーラブルに絞り込み可能になります。データセットは https://huggingface.co/datasets/google/RSRCC で利用できます。