EO-Gym:地球観測エージェント向けのマルチモーダルでインタラクティブな環境

arXiv cs.AI / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文では、固定された単発タスクではなくインタラクティブに動作できる地球観測(EO)エージェントのための、Gymnasiumスタイルのローカル地理空間ワークスペース「EO-Gym」を提案しています。
  • EO-Gymは、位置・時刻・センサ種別で索引付けされた660k件超のマルチモーダルファイルと連携し、6つのタスクファミリーにまたがる35のEO特化ツールを備えて、不確実性解消のために関心領域を拡張したりセンサを切り替えたりできるようにします。
  • 「EO-Gym-Data」として、8つの公開EOデータセットに加えLandsatおよびSentinel-2の画像を用いた、9,078の軌跡と34,604の推論ステップからなるベンチマークを構築しています。
  • 10のオープン/クローズドなVLM(vision-language model)を評価した結果、汎用的に強力なモデルでも、特に時間的・クロスモーダルなワークフローにおけるインタラクティブなEO推論が難しいことが示されています。
  • Qwen3-VL-4B-InstructをEO-Gym-Dataで微調整して「EO-Gym-4B」を作ると、主要評価設定でPass@3が0.49から0.74へ向上し、参照ベースラインが提示されています。

要旨: 地球観測(EO)分析は本質的にインタラクティブです。不確実性を解消するには、関心領域を拡張し、過去の観測を取得し、さらに光学や合成開口レーダー(Synthetic Aperture Radar)などの複数のセンサーをまたいで切り替える必要があることがしばしばあります。しかし、ほとんどのEOベンチマークでは、このプロセスを固定入力の単一ターン課題に集約しています。このギャップに対処するために、我々はEO-Gymを提案します。これは、マルチモーダルでツールを使用するEOエージェント向けの制御可能な実行可能フレームワークであり、EO分析をGymnasiumスタイルのローカル地理空間ワークスペースとして定式化します。さらに、このワークスペースは、位置・時刻・センサー種別でインデックスされた660k超のマルチモーダルファイルに裏打ちされており、6つのタスクファミリーにまたがる35のEO専用ツールを備えています。この環境に基づいて、9,078本のトラジェクトリと34,604の推論ステップからなるベンチマークであるEO-Gym-Dataを構築します。これは、8つの公開EOデータセットと、LandsatおよびSentinel-2の画像を組み合わせて基礎付けています。10個のオープンおよびクローズドのVLMを評価したところ、強力な汎用モデルであっても、特に時間的およびクロスモーダルなワークフローにおけるインタラクティブなEO推論は依然として難しいことが分かりました。参考となるベースラインとして、EO-Gym-Data上でQwen3-VL-4B-Instructをファインチューニングして得られたEO-Gym-4Bは、主な評価設定において全体のPass@3を0.49から0.74へと改善します。O-Gymは、インタラクティブなEOエージェントのための再現可能な環境を提供し、EOを、地理空間・時間・センシングのモダリティをまたいだ計画を必要とする「証拠収集問題」として実運用可能な形で具現化します。