要旨: 推論言語モデルと検証可能な報酬を伴う強化学習の最近の進展は、マルチステップ推論能力を大幅に向上させています。この進展は、推論パラダイムをリモートセンシングの視覚的グラウンディングタスクへ拡張する動機となります。しかし、既存のリモートセンシング・グラウンディング手法は主に認識レベルのマッチングと単一エンティティの定式化に留まり、明示的な推論とエンティティ間モデリングの役割を制限しています。この課題に対処するために、リモートセンシングにおけるマルチエンティティ推論グラウンディングの新しいベンチマークデータセット(ME-RSRG)を紹介します。ME-RSRGを基盤として、リモートセンシング・グラウンディングをマルチエンティティ推論タスクとして再定式化し、視覚-言語基盤モデルに基づくエンティティ対応推論(EAR)フレームワークを提案します。EARは構造化された推論トレースと主語-目的語のグラウンディング出力を生成します。コールドスタート初期化のための教師ありファインチューニングを採用し、エンティティ対応報酬駆動のグループ相対ポリシー最適化(GRPO)によってさらに最適化されます。ME-RSRGにおける大規模な実験は、マルチエンティティ推論の課題を示し、提案したEARフレームワークの有効性を検証します。我々のデータセット、コード、およびモデルは https://github.com/CV-ShuchangLyu/ME-RSRG で公開されます。
Think and Answer ME: リモートセンシングにおけるマルチエンティティ推論グラウンディングのベンチマークと探索
arXiv cs.CV / 2026/3/16
📰 ニュースModels & Research
要点
- 本論文は、認識レベルのマッチングを超えることを目指す、リモートセンシングにおけるマルチエンティティ推論グラウンディングの新しいベンチマークデータセット ME-RSRG を発表する。
- リモートセンシングのグラウンディングをマルチエンティティ推論タスクとして再定義し、構造化された推論経路と主体–対象のグラウンディング出力を生成する Entity-Aware Reasoning(EAR)フレームワークを導入する。
- EAR は視覚-言語基盤モデルを基盤とし、コールドスタート初期化のための教師ありファインチューニングを用い、その後エンティティ配慮の報酬駆動型グループ相対ポリシー最適化(GRPO)で最適化を行う。
- ME-RSRG 上での大規模な実験は、マルチエンティティ推論の課題を示し、EAR フレームワークの有効性を検証する。コードとモデルは GitHub で公開予定。


![[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜](/_next/image?url=https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F260885500%2Frectangle_large_type_2_f8df7c72d21f86c39d4096dd995f50d1.png%3Fwidth%3D219%26dpr%3D2%26frame%3D1%26format%3Djpg&w=3840&q=75)
