要旨: 近年のマルチモーダル大規模言語モデル(MLLM)の進歩は、領域指向型AIの発展を加速させていますが、地球科学およびリモートセンシング(RS)におけるそれらの開発は、独特の課題により制約されています。すなわち、幅広い専門分野の知識、異種のセンサーモダリティ、そして課題が断片化したタスク体系です。これらのギャップを埋めるために、私たちはGeoMMBenchを導入します。これは、さまざまなRS分野、センサー、タスクを網羅する包括的なマルチモーダル質問応答ベンチマークであり、先行ベンチマークよりも広範かつ厳密な評価を可能にします。GeoMMBenchを用いて、36のオープンソースおよび商用(プロプライエタリ)の大規模言語モデルを評価し、専門レベルの地理空間解釈に不可欠な、領域知識、知覚的な根拠付け、そして推論における体系的な不十分さを明らかにします。評価に加えて、私たちはGeoMMAgentを提案します。これは、領域特化型のRSモデルとツールを通じて、検索(retrieval)、知覚(perception)、推論(reasoning)を戦略的に統合するマルチエージェントの枠組みです。大規模な実験結果により、GeoMMAgentは単体のLLMを大幅に上回ることが示され、複雑な地球科学およびRSの課題に対して動的に取り組むためには、ツールによって補強されたエージェントの重要性が強調されます。
GeoMMBench と GeoMMAgent:地球科学およびリモートセンシングにおけるエキスパート級マルチモーダル知能への道
arXiv cs.CV / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、地球科学およびリモートセンシング(RS)における能力を、分野・センサー・タスク種別にわたってより適切に評価するための包括的なマルチモーダルQAベンチマークである GeoMMBench を提案する。
- GeoMMBench を用いて著者らは、36 のオープンソースおよびプロプライエタリなマルチモーダル大規模言語モデルを検証し、ドメイン知識、知覚的な基づけ(パーセプチュアル・グラウンディング)、推論に関する反復的な弱点を特定する。
- これらの制限に対処するために、著者らは、リトリーバル(検索)、知覚、推論を組み合わせ、さらにドメイン特化の RS モデルやツールを活用するマルチエージェントフレームワークである GeoMMAgent を提案する。
- 実験の結果、GeoMMAgent は単体の LLM よりも有意に高い性能を示し、複雑な地理空間解釈においてツールを併用しエージェント的に振る舞うアプローチの価値を明らかにする。
- 本研究は、地球科学および RS のワークフローにおける、より厳密でエキスパート級のマルチモーダル知能へ至るための道筋として、ベンチマークとエージェント枠組みを位置づける。

