ProMMSearchAgent:プロセス指向の報酬で学習した、汎用的マルチモーダル検索エージェント

arXiv cs.CV / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、極端にまばらな教師信号とライブWeb環境の不確実性という課題に対処するため、プロセス指向の報酬で学習するマルチモーダル検索エージェント「ProMMSearchAgent」を提案している。
  • 方針学習を、決定論的なローカル静的サンドボックスに切り分けることで、ライブWeb上で直接学習する場合よりも学習の安定性を高めている。
  • エージェント自身の知識限界を内省的に探ることで、正しい認知判断や、視覚的・事実的に不確かである場合にマルチモーダル検索またはテキスト検索を開始すべきタイミングを明示的に報いる仕組みを導入している。
  • 実験では、Google Search APIへのライブ転用に対してゼロショットでの転移が示され、複数ベンチマークで新たな最先端性能を達成した。
  • 具体的には、FVQA-testで+5.1%、InfoSeekで+6.3%、MMSearchで+11.3%の改善が報告され、知識集約型の視覚推論に対する汎化力の高さが示されている。

Abstract

Training multimodal agents via reinforcement learning for knowledge-intensive visual reasoning is fundamentally hindered by the extreme sparsity of outcome-based supervision and the unpredictability of live web environments. To resolve these algorithmic and environmental bottlenecks, we introduce ProMMSearchAgent, establishing a novel Sim-to-Real training paradigm for multimodal search. We decouple policy learning into a deterministic, local static sandbox. Crucially, to learn effectively within this constrained environment, we propose an introspective process-oriented reward. By probing the agent's own parametric knowledge boundaries, we generate dense behavioral metadata that explicitly rewards the correct cognitive decision, initiating a multimodal or text search only when visually or factually uncertain. Extensive experiments demonstrate that our locally-trained policy transfers zero-shot to the live Google Search API. ProMMSearchAgent achieves new SOTA performance, outperforming MMSearch-R1 by +5.1% on FVQA-test, +6.3% on InfoSeek, and +11.3% on MMSearch.