RemoteAgent:RLベースのエージェント型MLLMによって、人間の曖昧な意図と地球観測をつなぐ
arXiv cs.CV / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、地球観測のためのエージェント型フレームワークであるRemoteAgentを提案し、曖昧な人間の自然言語の意図を、適切な粒度の視覚解析タスクへ変換する。
- MLLMは意味理解に優れる一方で、テキスト出力は高密度で精度が重要な空間予測に対して非効率であると主張し、内部で行動するべきか、外部ツールを使うべきかをシステムが判断するべきだとしている。
- RemoteAgentは、新たに構築したVagueEOデータセット(EOタスクと、シミュレートされた曖昧なクエリの組)を用い、意図認識とタスク実行を改善するために強化学習による微調整(reinforcement fine-tuning)を適用する。
- 本フレームワークは、Model Context Protocol(MCP)を通じて、密な予測が必要な場合にのみ専門ツールをオーケストレーションし、不必要なツール呼び出しを減らし、MLLMの強みをより有効に活用することを目指す。
- 実験では、RemoteAgentが意図認識で強い性能を示し、画像レベルの予測と疎/密な予測の両方を要するさまざまなEOタスクにおいて競争力のある性能を達成したと報告されている。


