RemoteAgent:RLベースのエージェント型MLLMによって、人間の曖昧な意図と地球観測をつなぐ

arXiv cs.CV / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、地球観測のためのエージェント型フレームワークであるRemoteAgentを提案し、曖昧な人間の自然言語の意図を、適切な粒度の視覚解析タスクへ変換する。
  • MLLMは意味理解に優れる一方で、テキスト出力は高密度で精度が重要な空間予測に対して非効率であると主張し、内部で行動するべきか、外部ツールを使うべきかをシステムが判断するべきだとしている。
  • RemoteAgentは、新たに構築したVagueEOデータセット(EOタスクと、シミュレートされた曖昧なクエリの組)を用い、意図認識とタスク実行を改善するために強化学習による微調整(reinforcement fine-tuning)を適用する。
  • 本フレームワークは、Model Context Protocol(MCP)を通じて、密な予測が必要な場合にのみ専門ツールをオーケストレーションし、不必要なツール呼び出しを減らし、MLLMの強みをより有効に活用することを目指す。
  • 実験では、RemoteAgentが意図認識で強い性能を示し、画像レベルの予測と疎/密な予測の両方を要するさまざまなEOタスクにおいて競争力のある性能を達成したと報告されている。

Abstract

地球観測(EO)システムは本質的に、ドメイン専門家が、しばしば精密で機械が扱える指示ではなく曖昧な自然言語を通じて要件を表現することを前提に設計されています。特定のアプリケーションシナリオによって、こうした曖昧な問いは、要求される視覚的な精度のレベルが大きく異なることがあります。その結果、実用的なEO AIシステムは、曖昧な人間の問い合わせと、全体的な画像解釈からきめ細かな画素単位の予測までに及ぶ、適切な複数粒度の視覚解析タスクの間に橋を架ける必要があります。マルチモーダル大規模言語モデル(MLLM)は強力な意味理解を示しますが、そのテキストベースの出力形式は、密で精度が重要な空間予測には本質的に不向きです。既存のエージェント型フレームワークは、この制約を外部ツールにタスクを委譲することで解決していますが、無差別なツール呼び出しは計算効率が悪く、MLLMが本来備える能力を十分に活用できていません。そこで本研究では、MLLMの内在的な能力の境界を戦略的に尊重するエージェント型フレームワーク RemoteAgent を提案します。本フレームワークが実ユーザの意図を理解できるようにするため、EOタスクとシミュレーションした曖昧な自然言語による問いの組を作成した、人間中心の指示データセット VagueEO を構築します。VagueEO を強化学習による微調整に活用することで、画像タスクおよび疎な領域レベルのタスクを直接解決する、頑健な認知コアへと MLLM を整合させます。その結果、RemoteAgent は適切なタスクは内部で処理しつつ、密な予測に限って Model Context Protocol を通じて専門のツールを知的にオーケストレーションします。大規模な実験により、RemoteAgent が頑健な意図認識能力を達成し、さまざまなEOタスクにおいて高い競争力のある性能を提供することが示されます。